CN104424953B - 语音信号处理方法与装置 - Google Patents

语音信号处理方法与装置 Download PDF

Info

Publication number
CN104424953B
CN104424953B CN201310412886.6A CN201310412886A CN104424953B CN 104424953 B CN104424953 B CN 104424953B CN 201310412886 A CN201310412886 A CN 201310412886A CN 104424953 B CN104424953 B CN 104424953B
Authority
CN
China
Prior art keywords
voice signal
terminal
signal
microphone
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310412886.6A
Other languages
English (en)
Other versions
CN104424953A (zh
Inventor
陈日林
张德明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310412886.6A priority Critical patent/CN104424953B/zh
Priority to PCT/CN2014/076375 priority patent/WO2015035785A1/zh
Publication of CN104424953A publication Critical patent/CN104424953A/zh
Priority to US15/066,285 priority patent/US9922663B2/en
Application granted granted Critical
Publication of CN104424953B publication Critical patent/CN104424953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明公开了一种语音信号处理方法及装置,用以对终端的麦克风采集的语音信号进行处理,以满足终端在不同应用模式下对于处理后生成的语音信号的需求。方法包括:采集至少两路语音信号;确定终端的当前应用模式;根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号;采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。

Description

语音信号处理方法与装置
技术领域
本发明涉及麦克风技术领域,尤其涉及一种语音信号处理方法与装置。
背景技术
随着手机等各种移动设备的广泛使用,移动设备的使用环境和场景得到了更大程度的扩展。目前,在很多使用环境和场景中,移动设备都需要通过其麦克风采集语音信号。
具体而言,现有技术中的移动终端可以简单地采用自身的一个麦克风来采集语音信号。但该方式的缺陷在于:仅能进行单通道降噪处理,对采集到的语音信号无法进行空间滤波处理,因此对该语音信号中包含的干扰语音等噪声信号的抑制能力十分有限,在噪声信号较大的情况下存在降噪能力不足的问题。
为了对音频信号进行降噪处理,也有技术提出启用双麦克风分别采集语音信号和噪声信号,并基于采集到的噪声信号进行语音信号降噪处理,从而保证移动设备在各种使用环境和场景中都能够获得较高的通话质量,达到低失真低噪音的语音效果。
进一步地,为了获得更好的空间采样特性,现有技术中又提出了多麦克风处理技术。该技术的原理主要是利用移动设备的多个麦克风信号分别进行语音信号采集,并对采集到的语音信号进行空间滤波处理,从而获得较高质量的语音信号。由于该技术可以利用波束形成等技术对采集到的语音信号进行空间滤波处理,从而对噪声信号有更强的抑制能力。其中,“波束形成”这一技术的基本原理是:至少两路接收信号(如麦克风接收到的语音信号)分别经过模数转换器(Analog to Digital Converter,ADC)处理后,由数字处理器根据基于特定波束方向而获得的各路接收信号的时延关系或相移关系,利用ADC输出的各路数字信号形成指向该特定波束方向的波束。
随着移动设备功能性的提升,目前的移动设备可以工作在不同的应用模式下,该些应用模式主要包括手持通话模式、视频通话模式、免提会议模式以及非通信场景下的录音模式等等。一般说来,工作在不同应用模式下的移动设备往往会面临对于语音信号的不同需求。然而,现有技术中利用麦克风进行语音信号采集的上述方案中,均没有提出如何对麦克风采集到的语音信号进行处理,使得处理后生成的语音信号能够满足移动设备在不同应用模式下的需求。
发明内容
本发明实施例提供一种语音信号处理方法及装置,用以对终端的麦克风采集的语音信号进行处理,以满足终端在不同应用模式下对于处理后生成的语音信号的需求。
本发明实施例采用以下技术方案:
一方面,提供一种语音信号处理方法,包括:采集至少两路语音信号;确定终端的当前应用模式;根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号;采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
结合第一方面,在第一种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,且所述终端还包括处于所述终端顶端的听筒;若所述当前应用模式为手持通话模式;则根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号具体包括:根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和所述第二麦克风阵列分别采集的各路语音信号;采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体包括:对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向所述终端底端正前方;对所述第二麦克风阵列到的各路语音信号进行波束形成处理,使得对所述第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向所述终端顶端正后方,并使得所述第二波束在所述终端的听筒所在方向形成零陷。
结合第一方面,在第二种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,若所述当前应用模式为视频通话模式;则根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号,具体包括:根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端不需要合成立体声声效的语音信号时,从所述至少两路语音信号中确定所述第一麦克风阵列采集的语音信号。
结合第一方面,在第三种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风;且所述终端中还设置有加速度计,若所述当前应用模式为视频通话模式;则根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号,具体包括:根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端需要合成立体声声效的语音信号时,根据所述加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据所述加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号,具体包括:若判断出所述加速度计当前输出的信号与预先规定的第一信号匹配,则从所述至少两路语音信号中,确定所述第二麦克风阵列当前所采集到的各路语音信号;其中,所述预先规定的第一信号为所述加速度计在所述终端处于垂直放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;若判断出所述加速度计当前输出的信号与预先规定的第二信号匹配,则从所述至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,所述预先规定的第二信号为所述加速度计在所述终端处于水平放置状态时输出的信号;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度;所述特定的麦克风包括:在所述终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列。
结合第一方面的第三种或第四种可能的实现方式,在第五种可能的实现方式中,采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体包括:确定设置在所述终端上的各摄像头当前的状态;采用预先设置的、与所述当前应用模式和所述各摄像头当前的状态均匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
结合第一方面,在第六种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风;且所述终端包括设置于所述顶端的扬声器;若所述当前应用模式为免提会议模式;则根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号,具体包括:根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号。
结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体包括:根据所述终端当前的声效模式,判断所述终端是否需要合成环绕声声效的语音信号;在判断出所述终端不需要合成环绕声声效的语音信号时,确定所述终端当前用于播放语音信号的部件;在确定出所述部件为耳机时,对所述相对应的语音信号进行波束形成处理,使得生成的波束指向所述相对应的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入所述终端的波束方向指示信息所表示的方向一致;其中,所述共同声源所在位置是根据所述相对应的语音信号对声源所在位置进行声源跟踪而确定出的;在确定出所述部件为所述扬声器时,对所述相对应的语音信号进行波束形成处理,使得生成的波束在所述扬声器所在方向形成零陷。
结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,所述终端中设置有加速度传感器;采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体还包括:在判断出所述终端需要合成环绕声声效的语音信号,且判断出所述加速度计当前输出的信号与预先规定的信号匹配时,从所述相对应的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,所述当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列;所述当前沿垂直方向分布的一对麦克风均属于所述第一麦克风阵列或第二麦克风阵列;对选取的所述沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的所述沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对所述相对应的语音信号的均值化处理,获得声场零阶分量;利用所述声场一阶第一分量、所述声场一阶第二分量和所述声场零阶分量,生成波束方向与特定方向一致的不同波束;其中,所述预先规定的信号为所述加速度计在所述终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
结合第一方面,在第九种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,且所述终端中设置有加速度传感器,若所述当前应用模式为非通信场景下的录音模式;则根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号,具体包括:根据所述当前应用模式,在根据设置在所述终端中的加速度计输出的信号判断出所述终端当前处于垂直放置状态或水平放置状态时,从所述至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
第二方面,提供一种语音信号处理装置,包括:采集单元,用于采集至少两路语音信号;模式确定单元,用于确定终端的当前应用模式;语音信号确定单元,用于根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号;处理单元,用于采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
结合第二方面,在第一种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,且所述终端还包括处于所述终端顶端的听筒;若所述当前应用模式为手持通话模式;则所述语音信号确定单元具体用于:根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和所述第二麦克风阵列分别采集的各路语音信号;所述处理单元具体用于:对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向所述终端底端正前方;对所述第二麦克风阵列到的各路语音信号进行波束形成处理,使得对所述第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向所述终端顶端正后方,并使得所述第二波束在所述终端的听筒所在方向形成零陷。
结合第二方面,在第二种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,若所述当前应用模式为视频通话模式;则所述语音信号确定单元具体用于:根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端不需要合成立体声声效的语音信号时,从所述至少两路语音信号中确定所述第一麦克风阵列采集的语音信号。
结合第二方面,在第三种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风;且所述终端中还设置有加速度计,若所述当前应用模式为视频通话模式;则所述语音信号确定单元具体用于:根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端需要合成立体声声效的语音信号时,根据所述加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述语音信号确定单元具体用于:若判断出所述加速度计当前输出的信号与预先规定的第一信号匹配,则从所述至少两路语音信号中,确定所述第二麦克风阵列当前所采集到的各路语音信号;其中,所述预先规定的第一信号为所述加速度计在所述终端处于垂直放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;若判断出所述加速度计当前输出的信号与预先规定的第二信号匹配,则从所述至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,所述预先规定的第二信号为所述加速度计在所述终端处于水平放置状态时输出的信号;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度;所述特定的麦克风包括:在所述终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列。
结合第二方面的第三种或第四种可能的实现方式,在第五种可能的实现方式中,所述处理单元具体用于:确定设置在所述终端上的各摄像头当前的状态;采用预先设置的、与所述当前应用模式和所述各摄像头当前的状态均匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
结合第二方面,在第六种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风;且所述终端包括设置于所述顶端的扬声器;若所述当前应用模式为免提会议模式;则所述语音信号确定单元具体用于:根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号。
结合第二方面的第六种可能的实现方式,在第七种可能的实现方式中,所述处理单元具体用于:根据所述终端当前的声效模式,判断所述终端是否需要合成环绕声声效的语音信号;在判断出所述终端不需要合成环绕声声效的语音信号时,确定所述终端当前用于播放语音信号的部件;在确定出所述部件为耳机时,对所述相对应的语音信号进行波束形成处理,使得生成的波束指向所述相对应的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入所述终端的波束方向指示信息所表示的方向一致;其中,所述共同声源所在位置是根据所述相对应的语音信号对声源所在位置进行声源跟踪而确定出的;在确定出所述部件为所述扬声器时,对所述相对应的语音信号进行波束形成处理,使得生成的波束在所述扬声器所在方向形成零陷。
结合第二方面的第七种可能的实现方式,在第八种可能的实现方式中,所述终端中设置有加速度传感器;所述处理单元具体还用于:在判断出所述终端需要合成环绕声声效的语音信号,且判断出所述加速度计当前输出的信号与预先规定的信号匹配时,从所述相对应的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,所述当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列;所述当前沿垂直方向分布的一对麦克风均属于所述第一麦克风阵列或第二麦克风阵列;对选取的所述沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的所述沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对所述相对应的语音信号的均值化处理,获得声场零阶分量;利用所述声场一阶第一分量、所述声场一阶第二分量和所述声场零阶分量,生成波束方向与特定方向一致的不同波束;其中,所述预先规定的信号为所述加速度计在所述终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
结合第二方面,在第九种可能的实现方式中,所述终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,且所述终端中设置有加速度传感器,若所述当前应用模式为非通信场景下的录音模式;则所述语音信号确定单元具体用于:根据所述当前应用模式,在根据设置在所述终端中的加速度计输出的信号判断出所述终端当前处于垂直放置状态或水平放置状态时,从所述至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
本发明实施例的有益效果如下:
采用本发明实施例提供的上述方案,通过根据终端的当前应用模式,从采集的至少两路语音信号中确定与所述当前应用模式相对应的语音信号,并采用与终端的当前应用模式相匹配的语音信号处理方式对确定的语音信号进行处理,使得无论是确定的语音信号,还是对语音信号的处理方式,都可以与终端的当前应用模式相适应,从而可以满足终端在不同应用模式下对于处理后生成的语音信号的需求。
附图说明
图1为本发明实施例提供一种语音信号处理方法的具体实现流程图;
图2为本发明实施例提供的一个安装有4个麦克风的移动终端的示意图;
图3为本发明实施例中的移动终端对于语音信号的采集、选取、处理和上传过程示意图;
图4为处于垂直放置状态的移动终端示意图;
图5为处于水平放置状态的移动终端示意图;
图6为移动终端的麦克风沿预设坐标轴排列的示意图;
图7为本发明实施例提供的语音信号处理装置的具体结构示意图;
图8为本发明实施例提供的另一种语音信号处理装置的具体结构示意图。
具体实施方式
现有技术中,针对移动设备的不同使用场景,用户可以采用对移动设备的应用模式进行设置的方式,使得移动设备的应用模式能够与当前的使用场景相匹配。比如,在用户利用移动设备发起呼叫或者接听呼叫的场景下,用户可以设置移动终端工作在“手持通话模式”这一应用模式下;而在用户利用移动设备进行视频通话的场景下,用户可以设置移动终端工作在“视频通话模式”这一应用模式下;等等。
目前,越来越多的移动设备使用者希望在使用移动设备的过程中可以获得更加丰富的音效体验。比如,希望能够在利用移动设备进行录音的过程中通过开启移动设备的立体声模式,使得移动设备能够区分水平180度方向的不同声源位置,从而后续能够在回放录音时产生立体声声效;又比如,希望移动设备工作在免提会议模式下时,能够收集以移动设备为中心的360°范围内的、来自不同声源的语音信号,并生成和输出能够产生环绕声声效的语音信号。
本发明实施例为了对工作在不同应用模式下的终端的麦克风采集的语音信号进行处理,使得处理后生成的语音信号能满足终端在相应的应用模式下的需求,提供一种语音信号处理方法及装置。以下结合说明书附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限制本发明。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。
首先,本发明实施例提供一种如图1所示的语音信号处理方法,该方法主要包括下述主要步骤:
步骤11,采集至少两路语音信号;
比如,以该方法的执行主体为终端为例,该终端可以通过自身设置的至少两个麦克风,分别采集语音信号。
步骤12,确定终端的当前应用模式;
比如,可以根据经终端的指令输入部件(如触摸屏等)而输入终端的应用模式确认指令,来确定终端的当前应用模式。
如图2所示,为本发明实施例提供的一个安装有4个麦克风(分别为图2中所示的mic1~mic4)的移动终端的示意图。由图2可以看出,该终端的触摸屏上,可以提供多个可供用户选择的应用模式,包括:手持通话(即手持通话模式的简写)、视频通话(即视频通话模式的简写)和免提会议(即免提会议模式的简写)。用户在对应用模式进行选择后,可以使得该移动终端获得对应于用户所选择的应用模式的一个应用模式确认指令,根据该应用模式确认指令,就可以确定终端的当前应用模式。
步骤13,根据终端的当前应用模式,从通过执行步骤11而采集到的所述至少两路语音信号中,确定与终端的当前应用模式相对应的语音信号;
考虑到不同的应用模式下的终端对于根据确定出的语音信号而生成的新的语音信号的需求有所不同,因此本发明实施例中可以预先根据不同应用模式下的终端对于该新的语音信号的需求,为终端不同的应用模式规定不同的麦克风。比如,以如图2所示的移动终端为例,可以预先规定与其手持通话模式所对应的麦克风为mic1~mic4。从而当通过执行步骤11确定出该移动终端的当前应用模式为手持通话模式时,可以选取该移动终端的mic1~mic4所采集的语音信号。本发明实施例中,如图2所示的移动终端可以具备区分由不同麦克风所采集到的语音信号的功能。
后文将在多个具体实施例中,针对终端当前的不同应用模式,具体说明如何从采集到的至少两路语音信号中确定与终端的当前应用模式对应的语音信号,此处不再赘述。
步骤14,采用预先设置的与终端的当前应用模式相匹配的语音信号处理方式,对通过执行步骤13而确定出的与终端的当前应用模式相对应的语音信号进行波束形成处理。
仍然以如图2所示的移动终端为例,且假设该移动终端的当前应用模式为手持通话模式,则通过执行步骤13可知,确定出的与该移动终端的当前应用模式相对应的语音信号为mic1~mic4当前所采集的语音信号。基于mic1~mic4当前所采集的语音信号,考虑到处于移动终端底端的第一麦克风阵列(包括mic1和mic2)是靠近用户嘴巴的麦克风阵列,其采集到的语音信号主要是用户发出的声波信号;而处于移动终端顶端的第二麦克风阵列(包括mic3和mic4)是靠近移动终端的听筒而远离用户嘴巴的麦克风阵列,其主要采集到的语音信号可以被视为一些噪声信号。从而步骤13中所采用的语音信号处理方式可以包括如下内容:
对第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向该移动终端底端正前方,即指向用户的嘴巴所在位置;并对第二麦克风阵列采集到的各路语音信号进行波束形成处理,使得对第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向该移动终端顶端正后方,并使得该第二波束在该移动终端的听筒所在方向形成零陷。
以下举例说明何为“指向移动终端底端正前方”以及“指向移动终端顶端正后方”:
以图2为例,其为该移动终端正面的平面示意图,与该正面相对的一面为该移动终端的背面(也称反面)。该移动终端的处于图2上方的虚线框所围区域的部分即移动终端顶端,移动终端顶端为一个立体区域,其既包含移动终端正面上处于该虚线框中的区域,也包含移动终端背面上处于该虚线框中的区域。该移动终端的处于图2下方的虚线框所围区域的部分即移动终端底端,移动终端底端也是一个立体区域,其既包含移动终端正面上处于该虚线框中的区域,也包含移动终端背面上处于该虚线框中的区域。针对图2所示的该移动终端而言,“指向移动终端底端正前方”是指垂直于移动终端正面上处于图2下方的虚线框所围区域,且背离图2所在的该页面的方向;而“指向移动终端顶端正后方”是指垂直于移动终端正面上处于图2上方的虚线框所围区域,且背离图2所在的该页面的方向。
本发明实施例中,第一波束可视为有效语音信号,而第二波束则可视为噪声信号。在得到第一波束和第二波束的基础上,可以通过利用第二波束对第一波束进行语音增强处理,生成质量较高的语音信号。可选的,本发明实施例中具体还可以利用第二波束以及该移动终端所接收到的下行信号(即网络侧通过对该移动终端当前的通信对端所发出的语音信号进行解码而得到的下行信号),对第一波束进行语音增强处理,生成质量较高的语音信号。
由于语音增强处理已是现有技术中比较成熟的技术手段,因此本发明对此不再赘述。
后文将在多个具体实施例中,针对终端的不同当前应用模式,具体说明如何根据与终端的当前应用模式相匹配的语音信号处理方式,对确定出的与终端的当前应用模式相对应的语音信号进行处理,此处不再赘述。
由本发明实施例提供的上述方法可以看出,该方法通过根据终端的当前应用模式确定与该当前应用模式相对应的语音信号,并采用与终端的当前应用模式相匹配的语音信号处理方式,对确定出的与该当前应用模式相对应的语音信号进行处理,使得无论是确定出的语音信号还是语音信号处理方式,都可以与终端的当前应用模式相适应,从而可以满足终端在不同应用模式下对于处理后生成的语音信号的需求。
以下通过对多个实施例的介绍,详细说明当终端工作在不同应用模式下时,如何选取与终端的当前应用模式相匹配的语音信号,以及如何对选取的语音信号进行处理。
需要说明的是,为了便于读者理解,下述实施例均以如图2所示的移动终端为例进行说明。由于本领域技术人员可以明了,本发明实施例提供的方案也可以应用于其他类型的终端,或者具有其他结构的移动终端,从而下述实施例中的描述不应视为对本发明实施例提供的方案的限制。
此外还需要说明的是,下述实施例中的移动终端对于语音信号的采集、选取、处理和上传过程均可以参见图3。
实施例1
实施例1中假设移动终端当前工作在手持通话模式下。一般地,工作在手持通话模式下的移动终端往往处于垂直放置状态。其中,处于垂直放置状态的移动终端满足:其纵向中轴线与水平面的夹角为90度。或者,工作在手持通话模式下的移动终端也可以满足:其纵向中轴线与水平面的夹角的度数大于60度而小于等于90度。
当移动终端的当前应用模式为手持通话模式时,可以直接确定移动终端上设置的mic1~mic4所分别采集的各路语音信号为与该手持通话模式相对应的语音信号。
然后,对mic1和mic2分别采集到的各路语音信号进行波束形成处理,使得对mic1和mic2分别采集到的各路语音信号进行波束形成处理后生成的第一波束指向mic1和mic2连线的法线方向,即指向用户的嘴巴所在位置。同时,根据mic3和mic4分别采集到的各路语音信号进行波束形成处理,使得对mic3和mic4采集到的各路语音信号进行波束形成处理后生成的第二波束指向mic3和mic4连线的法线方向,即指向该移动终端顶端正后方,并使得该第二波束在该移动终端的听筒所在方向形成零陷。
进一步地,在得到第一波束和第二波束的基础上,可以通过利用第二波束对第一波束进行语音增强处理,生成质量较高的语音信号。可选的,实施例1中具体还可以利用第二波束以及该移动终端所接收到的下行信号(即网络侧通过对该移动终端当前的通信对端所发出的语音信号进行解码而得到的下行信号),对第一波束进行语音增强处理,生成质量较高的语音信号。
实施例2:
实施例2中假设移动终端当前工作在视频通话模式下。那么实施例2中,在从移动终端的所有麦克风所采集的至少两路语音信号中确定与移动终端的当前应用模式相对应的语音信号的过程中,可以首先判断移动终端是否需要合成立体声声效的语音信号。比如,可以根据移动终端当前的声效模式,判断移动终端是否需要合成立体声声效的语音信号。其中,移动终端的声效模式可以是由用户设置的,其可以包括立体声声效模式(即需要合成立体声声效的语音信号)、环绕声声效模式(即需要合成环绕声声效的语音信号)和普通声效模式(即既不需要合成立体声声效的语音信号,也不需要合成环绕声声效的语音信号)等。
若判断出移动终端不需要合成立体声声效的语音信号,且移动终端当前采用扬声器播放语音信号,则可以选取由mic1和mic2构成的第一麦克风阵列(即相距扬声器比较远的麦克风阵列)当前所采集的各路语音信号,而忽略由mic3和mic4构成的第二麦克风阵列(即相距扬声器比较近的麦克风阵列)当前所采集的各路语音信号。或者,无论移动终端当前是否采用扬声器播放语音信号,都可以选取由mic1和mic2构成的第一麦克风阵列当前所采集的各路语音信号,而忽略由mic3和mic4构成的第二麦克风阵列当前所采集的各路语音信号。进一步地,对于选取的语音信号的处理方式可以包括:按照现有技术中的联合语音和噪声估计技术,根据选取的由mic1和mic2分别采集的语音信号进行噪声估计,从而生成噪声较小的一路语音信号。可选的,还可以按照现有技术中的回声抵消处理技术,利用移动终端接收到的、由视频通话对端所发送的语音信号,进一步消除生成的该路语音信号中的一些回声。
而在移动终端需要合成立体声声效的语音信号的情况下,实施例2中可以根据设置在移动终端中的加速度计输出的信号,从移动终端的所有麦克风所采集的至少两路语音信号中确定与移动终端的当前应用模式相对应的语音信号。
以下以分别处于垂直放置状态和水平放置状态的移动终端为例,详细说明如何根据设置在移动终端中的加速度计输出的信号,从移动终端的所有麦克风所采集的至少两路语音信号中确定与移动终端的当前应用模式相对应的语音信号:
1、若判断出加速度计当前输出的信号与预先规定的第一信号匹配,则从移动终端的所有麦克风所采集的至少两路语音信号中,选取由mic3和mic4构成的第二麦克风阵列当前所采集到的各路语音信号。
其中,这里所说的预先规定的第一信号为该加速度计在移动终端处于垂直放置状态时输出的信号。具体地,处于垂直放置状态的移动终端示意图可以参见说明书附图4。处于垂直放置状态的移动终端满足:其纵向中轴线与水平面的夹角为90度。
2、若判断出加速度计当前输出的信号与预先规定的第二信号匹配,则从移动终端的所有麦克风所采集的至少两路语音信号中,选取特定的麦克风当前所采集到的语音信号。
其中,这里所说的预先规定的第二信号为该加速度计在移动终端处于水平放置状态时输出的信号。处于水平放置状态的移动终端满足:其纵向中轴线与水平面的夹角为0度。而上述特定的麦克风则包括:在移动终端处于水平放置状态时处于同一水平线的至少一对麦克风。
如图5所示,为处于水平放置状态的移动终端示意图。按照上述第2种情况下对于语音信号的选取方式可知,可以选择图5中当前处于同一水平线的mic1和mic4当前所采集到的语音信号;或者,也可以选择当前处于同一水平线的mic2和mic3当前所采集到的语音信号。
实施例2中,考虑到移动终端工作在视频通话模式下时,可能会存在开启前置摄像头、开启后置摄像头和不开启摄像头这几种情况,因此可选的,无论移动终端是否需要合成立体声声效的语音信号,实施例2中在确定出与移动终端的当前工作模式相对应的语音信号后,采用预先设置的与移动终端的当前应用模式相匹配的语音信号处理方式,对确定出的语音信号进行处理的过程均可以包括下述子步骤一~子步骤二:
子步骤一:确定设置在移动终端上的各摄像头当前的状态;
子步骤二:采用预先设置的、与该移动终端当前应用模式和上述各摄像头当前的状态均匹配的语音信号处理方式,对确定出的与移动终端的当前应用模式相对应的语音信号进行波束形成处理。
以下例举几种根据移动终端上的各摄像头当前的状态,对选取的语音信号进行处理的典型情况:
情况一:移动终端处于如图4所示的垂直放置状态,且移动终端当前启用其前置摄像头。
针对该情况一,若选取的是当前处于同一水平线上的mic3和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成右通道语音信号。具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic3所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic3所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
最终,生成的左通道语音信号和右通道语音信号会被编码为如图3所示的上行信号,并由射频天线进行发送。后续该移动终端的视频通话对端在接收到该路信号后,通过对该信号的解码,就可以恢复出上述左通道语音信号和右通道语音信号。
情况二:移动终端处于如图4所示的垂直放置状态,且移动终端当前启用其后置摄像头。
针对该情况二,若选取的是当前处于同一水平线上的mic3和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成右通道语音信号。最终,生成的左通道语音信号和右通道语音信号会被编码成一路如图3所示的上行信号,并由射频天线进行发送。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic3所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic3所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
情况三:移动终端处于如图5所示的水平放置状态,且移动终端当前启用其前置摄像头。
针对该情况三,若选取的是当前处于同一水平线上的mic1和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成右通道语音信号。最终,生成的左通道语音信号和右通道语音信号会被编码成一路如图3所示的上行信号,并由射频天线进行发送。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic1所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic1所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
情况四:移动终端处于如图5所示的水平放置状态,且移动终端当前启用其后置摄像头。
针对该情况四,若选取的是当前处于同一水平线上的mic1和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic4和mic1所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic4和mic1所采集的语音信号生成右通道语音信号。最终,生成的左通道语音信号和右通道语音信号会被编码成一路如图3所示的上行信号,并由射频天线进行发送。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic1所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic1所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
情况五:移动终端处于如图4所示的垂直放置状态,且移动终端当前不启用任何摄像头。
针对该情况五,若选取的是当前处于同一水平线上的mic3和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成右通道语音信号。最终,生成的左通道语音信号和右通道语音信号会被编码成一路如图3所示的上行信号,并由射频天线进行发送。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic3所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic3所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
情况六:移动终端处于如图5所示的水平放置状态,且移动终端当前不启用任何摄像头。
针对该情况六,若选取的是当前处于同一水平线上的mic1和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成右通道语音信号。最终,生成的左通道语音信号和右通道语音信号会被编码成一路如图3所示的上行信号,并由射频天线进行发送。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic1所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic1所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
针对上述情况一~情况六,在选取两路麦克风信号后,可以采用一阶差分阵列处理方法对两路麦克风信号进行处理,从而获得分别朝向左右两个方向的心形指向的两个波束,进一步地,通过对获得的波束进行低频补偿处理,就可以得到左、右两路立体声语音信号,并对其进行编码后发送。
实施例3
实施例3中,假设移动终端的当前应用模式为免提会议模式,那么,可以确定移动终端所包含的所有麦克风所采集的各路语音信号,作为与该免提会议模式相对应的语音信号。
由于在免提会议模式下,移动终端很可能会需要合成环绕声声效的语音信号,因此,实施例3中采用预先设置的与该免提会议模式相匹配的语音信号处理方式,对确定出的与免提会议模式相对应的语音信号进行波束行程处理的过程具体可以包括下述子步骤:
子步骤a:根据移动终端当前的声效模式,判断移动终端是否需要合成环绕声声效的语音信号;
子步骤b:在判断出移动终端不需要合成环绕声声效的语音信号时,对选取的语音信号进行波束形成处理,使得生成的波束的方向与特定方向相同;
子步骤c:在判断出移动终端需要合成环绕声声效的语音信号时,通过对选取的语音信号进行波束形成处理,生成分别指向不同特定方向的各波束。
或者,子步骤c也可以如下所述:
首先,在判断出移动终端需要合成环绕声声效的语音信号,且判断出移动终端中设置的加速度计当前输出的信号与预先规定的信号匹配时,从选取的语音信号中选取当前沿水平方向分布的一对麦克风(比如如图6中所示的mic4和mic1)分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风(比如如图6中所示的mic1和mic2)分别采集的语音信号;
然后,对选取的当前沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量(如图6所示的X);对选取的当前沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量(如图6所示的Y);并通过对选取的语音信号(即mic1~mic4所分别采集到的语音信号)的均值化处理,获得声场零阶分量(如图6所示的W);
最后,利用获得的声场一阶第一分量、声场一阶第二分量和声场零阶分量,生成波束方向与特定方向一致的不同波束。
为清楚示意上述X、Y、W,未在图6中示出移动终端当前屏幕上显示的内容。
需要说明的是,由于上述三个分量为声场正交分量,因此,利用上述三个分量可以重构平面360°范围内任意方向的语音信号。若将重构的语音信号作为移动终端的播放系统的激励信号进行回放,即可重建平面声场,从而获得环绕声效果。上述预先规定的信号为加速度计在移动终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的移动终端满足:其纵向中轴线与水平面的夹角为90度;处于水平放置状态的移动终端满足:其纵向中轴线与水平面的夹角为0度。
此外需要说明的是,上述子步骤b的实现方式可以包括:
1、确定移动终端当前用于播放语音信号的部件;
2、在确定出用于播放语音信号的部件为耳机时,对选取的语音信号进行波束形成处理,使得生成的波束指向选取的语音信号的共同声源所在位置;或者,使得生成的波束的方向与输入移动终端的波束方向指示信息所表示的方向一致。而在确定出用于播放语音信号的部件为移动终端上设置的扬声器时,对选取的语音信号进行波束形成处理,使得生成的波束在扬声器所在方向形成零陷。
其中,上述的共同声源所在位置可以但不限于是根据选取的语音信号,对声源所在位置进行声源跟踪而确定出的。
本发明实施例中,用户可以通过移动终端的信息输入部件,如触摸屏等,向移动终端输入波束方向指示信息。该波束方向指示信息可以用于指示期望根据选取的语音信号生成的波束的方向。比如,在双人谈话场合,若移动终端位于参与谈话的两人之间的位置,则此时可以通过该移动终端的触摸屏设定波束的两个主方向,这两个主方向可以分别朝向上述两人,从而达到抑制来自其他方向的干扰语音的目的。
实施例4
实施例4中,假设移动终端的当前应用模式为非通信场景下的录音模式。则选取与移动终端的当前应用模式相对应的语音信号的具体实现方式可以包括:根据移动终端的当前应用模式,在根据设置在移动终端中的加速度计输出的信号判断出移动终端当前处于垂直放置状态或水平放置状态时,从移动终端上设置的各麦克风采集的各路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号。
实施例4中,针对移动终端当前不同的放置方式,对于语音信号的选取和处理可以分为下述两种情况:
情况一:移动终端处于如图4所示的垂直放置状态。
针对该情况一,若选取的是当前处于同一水平线上的mic3和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic3和mic4所采集的语音信号生成右通道语音信号。
具体而言,这里所说的左通道语音信号的生成方式具体可以包括:以mic4所采集的语音信号为主麦克风信号,对该主麦克风信号和mic3所采集的语音信号进行差分处理操作,从而得到一个语音信号,即左通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
类似地,这里所说的右通道语音信号的生成方式具体可以包括:以mic3所采集的语音信号为主麦克风信号,对该主麦克风信号和mic4所采集的语音信号进行差分处理操作,从而得到一个语音信号,即右通道语音信号。其中,在进行该差分处理操作的过程中,主麦克风信号作为差分处理操作中的被减方。
情况二:移动终端处于如图5所示的水平放置状态。
针对该情况二,若选取的是当前处于同一水平线上的mic1和mic4所分别采集的语音信号,那么,可以按照预先设置的左通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成左通道语音信号,并按照预先设置的右通道语音信号的生成方式,利用mic1和mic4所采集的语音信号生成右通道语音信号。
具体而言,利用mic1和mic4所采集的语音信号生成左、右通道语音信号的过程可以包括下述步骤:
步骤一:加窗截取信号点后进行快速傅里叶变换(Fast Fourier Transform,FFT)变换;
假设mic1和mic4均为全指向性麦克风,且mic1采集到的语音信号为s1(t),mic4采集到的语音信号为s4(t),则步骤一的具体实现过程可以包括:
首先,根据采样率fs和N点长度的汉宁窗对s1(t)和s4(t)分别加窗,分别得到N个离散信号点构成的下述两个离散语音信号序列:
s1(l+1,…,l+N/2,l+N/2+1,…,l+N)
s4(l+1,…,l+N/2,l+N/2+1,…,l+N)
然后,对上述离散语音信号序列进行N点FFT变换,可以得到s1(l+1,…,l+N/2,l+N/2+1,…,l+N)的第k帧第i个频率点的频谱为S1(k,i),而s4(l+1,…,l+N/2,l+N/2+1,…,l+N)的第k帧第i个频率点的频谱为S4(k,i)。
步骤二:幅度匹配滤波;
为保证上述离散语音信号序列的信号幅度一致性,首先采用幅度匹配滤波器进行幅度均衡处理。若以Hj幅度匹配滤波器,则存在下式:
S′1(k,i)=H1(k,i)S1(k,i)
S′4(k,i)=H4(k,i)S4(k,i)
步骤三:差分处理获得波束输出
若d表示两个麦克风距离,c表示声速,Hd表示与距离d相关的频率补偿滤波器,则通过下式可以分别获得朝向两个不同方向的心形差分波束输出:
其中,L(k,i)和R(k,i)分别表示不同的新型差分波束。
步骤四:对L(k,i)和R(k,i)进行快速反傅里叶变换(Inverse Fast FourierTransform,IFFT)变换获得时域信号,得到第k帧时域信号L(k,t),R(k,t);
步骤五:时域信号重叠相加
时域信号重叠相加得到立体声左右两个通道信号L(t),R(t)。
由本发明实施例提供的语音信号的处理方法以及上述各实施例可知,本发明实施例首先提供了一种如图2所示的麦克风阵列配置方案。该方案中,麦克风位于移动终端的4个角上,从而可以避免手部的遮挡而造成的语音信号失真;同时这种配置方式下的不同麦克风组合可以兼顾不同的应用模式下移动终端对于生成的语音信号的需求。此外,由本发明实施例提供的语音信号的处理方法以及上述各实施例还可知,本发明实施例可以在不同应用模式及相关设置条件下,配置不同的麦克风组合,并调用相应的麦克风阵列算法,如波束形成算法等,从而可以加强不同应用模式下的降噪和对干扰语音的抑制能力,在不同环境和场景下都能够获得更加清晰保真的语音信号,且充分利用了多通道的语音信号,避免了语音信号的浪费。特别地,在视频通话模式下,利用不同的双麦克风配置,可以实现不同场景下的立体声录音或通信效果;在免提会议模式下,利用全部或部分麦克风,结合相应算法,如差分阵列算法,可以实现平面声场录制,获得平面环绕声录音或通信效果。
需要说明的是,本发明实施例提供的语音信号处理方法可适用于多种类型的终端,比如,除如图2所示的终端外,还可以适用于包含第一麦克风阵列和第二麦克风阵列的其他终端。其中,该第一麦克风阵列包含位于终端底端的多个麦克风;而第二麦克风阵列包含位于终端顶端的多个麦克风。
出于与本发明实施例提供的语音信号处理方法相同的发明构思,本发明实施例还提供一种语音信号处理装置,该装置的具体结构示意图如图7所示,包括下述功能单元:
采集单元71,用于采集至少两路语音信号;
模式确定单元72,用于确定终端的当前应用模式;
语音信号确定单元73,用于根据所述当前应用模式,从采集单元71采集的至少两路语音信号中确定与模式确定单元72确定的当前应用模式相对应的语音信号;
处理单元74,用于采用预先设置的与模式确定单元72确定的当前应用模式相匹配的语音信号处理方式,对语音信号确定单元73确定的语音信号进行波束形成处理。
以下针对具备不同功能组件的终端,具体说明当终端在不同的应用模式下时的语音信号确定单元73和处理单元74的功能实现方式:
1、若终端包括第一麦克风阵列和第二麦克风阵列;第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风,且终端还包括处于终端顶端的听筒。那么,若终端的当前应用模式为手持通话模式;则
语音信号确定单元73具体用于:根据当前应用模式,从采集单元71采集的至少两路语音信号中确定第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号;
处理单元74具体用于:对第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向终端底端正前方;对第二麦克风阵列到的各路语音信号进行波束形成处理,使得对第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向终端顶端正后方,并使得第二波束在终端的听筒所在方向形成零陷。
2、若终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风。那么,若终端的当前应用模式为视频通话模式;则
语音信号确定单元73具体用于:根据当前应用模式,在根据终端当前的声效模式判断出终端不需要合成立体声声效的语音信号时,从采集单元71采集的至少两路语音信号中确定第一麦克风阵列采集的语音信号。
3、若终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风;且终端中还设置有加速度计。那么,若终端的当前应用模式为视频通话模式;则
语音信号确定单元73具体用于:根据当前应用模式,在根据终端当前的声效模式判断出终端需要合成立体声声效的语音信号时,根据终端中的加速度计输出的信号,从采集单元71采集的至少两路语音信号中确定与当前应用模式相对应的语音信号。
比如,语音信号确定单元73具体可以用于:若判断出终端中的加速度计当前输出的信号与预先规定的第一信号匹配,则从采集单元71采集的至少两路语音信号中,确定第二麦克风阵列当前所采集到的各路语音信号。其中,预先规定的第一信号为加速度计在终端处于垂直放置状态时输出的信号;处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度。而若判断出加速度计当前输出的信号与预先规定的第二信号匹配,则从采集单元71采集的至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,预先规定的第二信号为加速度计在终端处于水平放置状态时输出的信号;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
其中,上述特定的麦克风包括:在终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于第一麦克风阵列,另一个麦克风属于第二麦克风阵列。
可选的,基于上述语音信号确定单元73确定出的语音信号,处理单元74具体可以用于:确定设置在终端上的各摄像头当前的状态;采用预先设置的、与当前应用模式和各摄像头当前的状态均匹配的语音信号处理方式,对相对应的语音信号进行波束形成处理。
4、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风;且终端包括设置于顶端的扬声器。若终端的当前应用模式为免提会议模式;则语音信号确定单元73具体可以用于:根据当前应用模式,从采集单元71采集的至少两路语音信号中确定第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号。
基于语音信号确定单元73的该功能,处理单元74具体可以用于:根据终端当前的声效模式,判断终端是否需要合成环绕声声效的语音信号;在判断出终端不需要合成环绕声声效的语音信号时,确定终端当前用于播放语音信号的部件;在确定出当前用于播放语音信号的部件为耳机时,对语音信号确定单元73确定的语音信号进行波束形成处理,使得生成的波束指向语音信号确定单元73确定的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入终端的波束方向指示信息所表示的方向一致;其中,上述共同声源所在位置是根据语音信号确定单元73确定的语音信号对声源所在位置进行声源跟踪而确定出的;而在确定出当前用于播放语音信号的部件为扬声器时,对语音信号确定单元73确定的语音信号进行波束形成处理,使得生成的波束在该扬声器所在方向形成零陷。
基于语音信号确定单元73的该功能,若终端中还设置有加速度传感器,则处理单元74具体还可以用于:
在判断出终端需要合成环绕声声效的语音信号,且判断出加速度计当前输出的信号与预先规定的信号匹配时,从语音信号确定单元73确定的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于第一麦克风阵列,另一个麦克风属于第二麦克风阵列;当前沿垂直方向分布的一对麦克风均属于第一麦克风阵列或第二麦克风阵列;
对选取的沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对语音信号确定单元73确定的语音信号的均值化处理,获得声场零阶分量;
利用声场一阶第一分量、声场一阶第二分量和声场零阶分量,生成波束方向与特定方向一致的不同波束;
其中,预先规定的信号为加速度计在终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
5、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风,且终端中设置有加速度传感器。那么,若当前应用模式为非通信场景下的录音模式;则
语音信号确定单元73具体用于:根据当前应用模式,在根据设置在终端中的加速度计输出的信号判断出终端当前处于垂直放置状态或水平放置状态时,从采集单元71采集的至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
本发明实施例还提供另一种语音信号处理装置,该装置的具体结构示意图如图8所示,包括下述功能实体:
信号采集器81,用于采集至少两路语音信号;
处理器82,用于确定终端的当前应用模式,并根据所述当前应用模式,从所述至少两路语音信号中确定与所述当前应用模式相对应的语音信号;以及采用预先设置的与所述当前应用模式相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
以下针对具备不同功能组件的终端,具体说明当终端在不同的应用模式下时的信号采集器81和处理器82的功能实现方式:
1、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风,且终端还包括处于终端顶端的听筒。那么,若当前应用模式为手持通话模式,则处理器82根据当前应用模式,从至少两路语音信号中确定与当前应用模式相对应的语音信号具体包括:根据当前应用模式,从信号采集器采集的至少两路语音信号中确定第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号。而采用预先设置的与当前应用模式相匹配的语音信号处理方式,对处理器82所确定出的语音信号进行波束形成处理,具体包括:对第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向终端底端正前方;对第二麦克风阵列到的各路语音信号进行波束形成处理,使得对第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向终端顶端正后方,并使得第二波束在终端的听筒所在方向形成零陷。
2、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风。那么,若当前应用模式为视频通话模式,则处理器82根据当前应用模式,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号,具体包括:根据当前应用模式,在根据终端当前的声效模式判断出终端不需要合成立体声声效的语音信号时,从信号采集器采集的至少两路语音信号中确定第一麦克风阵列采集的语音信号。
3、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风;且终端中还设置有加速度计,那么,若当前应用模式为视频通话模式,,则处理器82根据当前应用模式,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号,具体包括:根据当前应用模式,在根据终端当前的声效模式判断出终端需要合成立体声声效的语音信号时,根据加速度计输出的信号,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号。
可选的,处理器82根据加速度计输出的信号,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号,具体可以包括:
若判断出加速度计当前输出的信号与预先规定的第一信号匹配,则从信号采集器采集的至少两路语音信号中,确定第二麦克风阵列当前所采集到的各路语音信号;其中,预先规定的第一信号为加速度计在终端处于垂直放置状态时输出的信号;处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度;
若判断出加速度计当前输出的信号与预先规定的第二信号匹配,则从信号采集器采集的至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,预先规定的第二信号为加速度计在终端处于水平放置状态时输出的信号;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
其中,上述特定的麦克风包括:在终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于第一麦克风阵列,另一个麦克风属于第二麦克风阵列。
可选的,处理器82采用预先设置的与当前应用模式相匹配的语音信号处理方式,对处理器82所确定出的语音信号进行波束形成处理,具体包括:确定设置在终端上的各摄像头当前的状态;采用预先设置的、与当前应用模式和各摄像头当前的状态均匹配的语音信号处理方式,对处理器82所确定出的语音信号进行波束形成处理。
4、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风;且终端包括设置于顶端的扬声器。那么,若当前应用模式为免提会议模式;则处理器82根据当前应用模式,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号,具体可以包括:根据当前应用模式,从信号采集器采集的至少两路语音信号中确定第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号。
可选的,处理器82采用预先设置的与当前应用模式相匹配的语音信号处理方式,对处理器82所确定出的语音信号进行波束形成处理,具体包括:
根据终端当前的声效模式,判断终端是否需要合成环绕声声效的语音信号;
在判断出终端不需要合成环绕声声效的语音信号时,确定终端当前用于播放语音信号的部件;
在确定出部件为耳机时,对处理器82所确定出的语音信号进行波束形成处理,使得生成的波束指向处理器82所确定出的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入终端的波束方向指示信息所表示的方向一致;其中,共同声源所在位置是根据处理器82所确定出的语音信号对声源所在位置进行声源跟踪而确定出的;
在确定出部件为扬声器时,对处理器82所确定出的语音信号进行波束形成处理,使得生成的波束在扬声器所在方向形成零陷。
可选的,若终端中还设置有加速度传感器,则处理器82采用预先设置的与当前应用模式相匹配的语音信号处理方式,对处理器82所确定出的语音信号进行波束形成处理,具体还包括:
在判断出终端需要合成环绕声声效的语音信号,且判断出加速度计当前输出的信号与预先规定的信号匹配时,从处理器82所确定出的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于第一麦克风阵列,另一个麦克风属于第二麦克风阵列;当前沿垂直方向分布的一对麦克风均属于第一麦克风阵列或第二麦克风阵列;
对选取的沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对处理器82所确定出的语音信号的均值化处理,获得声场零阶分量;
利用声场一阶第一分量、声场一阶第二分量和声场零阶分量,生成波束方向与特定方向一致的不同波束;
其中,预先规定的信号为加速度计在终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
5、终端包括第一麦克风阵列和第二麦克风阵列;其中,第一麦克风阵列包含位于终端底端的多个麦克风;第二麦克风阵列包含位于终端顶端的多个麦克风,且终端中设置有加速度传感器。那么,若当前应用模式为非通信场景下的录音模式;则处理器82根据当前应用模式,从信号采集器采集的至少两路语音信号中确定与当前应用模式相对应的语音信号,具体包括:
根据当前应用模式,在根据设置在终端中的加速度计输出的信号判断出终端当前处于垂直放置状态或水平放置状态时,从信号采集器采集的至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的终端满足:终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的终端满足:终端的纵向中轴线与水平面的夹角为0度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种语音信号处理方法,其特征在于,终端包括第一麦克风阵列和第二麦克风阵列;其中,所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风;所述方法包括:
采集至少两路语音信号;
确定终端的当前应用模式;
若所述当前应用模式为手持通话模式;根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和所述第二麦克风阵列分别采集的各路语音信号;对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向所述终端底端正前方;对所述第二麦克风阵列到的各路语音信号进行波束形成处理,使得对所述第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向所述终端顶端正后方,并使得所述第二波束在处于所述终端顶端的听筒所在方向形成零陷;或者,
若所述当前应用模式为视频通话模式;根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端不需要合成立体声声效的语音信号时,从所述至少两路语音信号中确定所述第一麦克风阵列采集的语音信号;或者
若所述当前应用模式为视频通话模式;则根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端需要合成立体声声效的语音信号时,根据所述终端中设置的加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式的需求相对应的语音信号;或者
若所述当前应用模式为免提会议模式;则根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号;根据所述终端当前的声效模式,判断所述终端是否需要合成环绕声声效的语音信号;在判断出所述终端不需要合成环绕声声效的语音信号时,确定所述终端当前用于播放语音信号的部件;在确定出所述部件为耳机时,对所述相对应的语音信号进行波束形成处理,使得生成的波束指向所述相对应的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入所述终端的波束方向指示信息所表示的方向一致;其中,所述共同声源所在位置是根据所述相对应的语音信号对声源所在位置进行声源跟踪而确定出的;在确定出所述部件为扬声器时,对所述相对应的语音信号进行波束形成处理,使得生成的波束在所述扬声器所在方向形成零陷;或者
若所述当前应用模式为非通信场景下的录音模式;则根据所述当前应用模式,在根据设置在所述终端中的加速度计输出的信号判断出所述终端当前处于垂直放置状态或水平放置状态时,从所述至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
2.如权利要求1所述的方法,其特征在于,根据所述终端中设置的加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式的需求相对应的语音信号,具体包括:
若判断出所述加速度计当前输出的信号与预先规定的第一信号匹配,则从所述至少两路语音信号中,确定所述第二麦克风阵列当前所采集到的各路语音信号;其中,所述预先规定的第一信号为所述加速度计在所述终端处于垂直放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;
若判断出所述加速度计当前输出的信号与预先规定的第二信号匹配,则从所述至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,所述预先规定的第二信号为所述加速度计在所述终端处于水平放置状态时输出的信号;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度;
所述特定的麦克风包括:在所述终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列。
3.如权利要求1或2所述的方法,其特征在于,采用预先设置的与所述当前应用模式的需求相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体包括:
确定设置在所述终端上的各摄像头当前的状态;
采用预先设置的、与所述当前应用模式的需求和所述各摄像头当前的状态均匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
4.如权利要求1所述的方法,所述终端中设置有加速度计;其特征在于,采用预先设置的与所述当前应用模式的需求相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理,具体还包括:
在判断出所述终端需要合成环绕声声效的语音信号,且判断出所述加速度计当前输出的信号与预先规定的信号匹配时,从所述相对应的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,所述当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列;所述当前沿垂直方向分布的一对麦克风均属于所述第一麦克风阵列或第二麦克风阵列;
对选取的所述沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的所述沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对所述相对应的语音信号的均值化处理,获得声场零阶分量;
利用所述声场一阶第一分量、所述声场一阶第二分量和所述声场零阶分量,生成波束方向与特定方向一致的不同波束;
其中,所述预先规定的信号为所述加速度计在所述终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
5.一种语音信号处理装置,其特征在于,所述语音信号处理装置应用于终端,所述终端包括第一麦克风阵列和第二麦克风阵列;所述第一麦克风阵列包含位于所述终端底端的多个麦克风;所述第二麦克风阵列包含位于所述终端顶端的多个麦克风,所述装置包括:
采集单元,用于采集至少两路语音信号;
模式确定单元,用于确定终端的当前应用模式;
所述装置还包括语音信号确定单元、处理单元;其中
所述语音信号确定单元,用于:若所述当前应用模式为手持通话模式,则根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和所述第二麦克风阵列分别采集的各路语音信号;所述处理单元,用于:对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理,使得对所述第一麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第一波束指向所述终端底端正前方;对所述第二麦克风阵列到的各路语音信号进行波束形成处理,使得对所述第二麦克风阵列采集到的各路语音信号进行波束形成处理后生成的第二波束指向所述终端顶端正后方,并使得所述第二波束在处于所述终端顶端的听筒所在方向形成零陷;或者
所述语音信号确定单元,用于:若所述当前应用模式为视频通话模式,则根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端不需要合成立体声声效的语音信号时,从所述至少两路语音信号中确定所述第一麦克风阵列采集的语音信号;或者
所述语音信号确定单元,用于:若所述当前应用模式为视频通话模式,则根据所述当前应用模式,在根据所述终端当前的声效模式判断出所述终端需要合成立体声声效的语音信号时,根据加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式的需求相对应的语音信号;或者
所述语音信号确定单元,用于:若所述当前应用模式为免提会议模式,则根据所述当前应用模式,从所述至少两路语音信号中确定所述第一麦克风阵列和第二麦克风阵列分别采集的各路语音信号;或者
所述语音信号确定单元,用于:若所述当前应用模式为非通信场景下的录音模式,则根据所述当前应用模式,在根据设置在所述终端中的加速度计输出的信号判断出所述终端当前处于垂直放置状态或水平放置状态时,从所述至少两路语音信号中,确定当前处于同一水平线上的一对麦克风当前所采集到的语音信号;其中,处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
6.如权利要求5所述的装置,其特征在于,所述语音信号确定单元,在根据所述终端中设置的加速度计输出的信号,从所述至少两路语音信号中确定与所述当前应用模式的需求相对应的语音信号时,具体用于:
若判断出所述加速度计当前输出的信号与预先规定的第一信号匹配,则从所述至少两路语音信号中,确定所述第二麦克风阵列当前所采集到的各路语音信号;其中,所述预先规定的第一信号为所述加速度计在所述终端处于垂直放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;
若判断出所述加速度计当前输出的信号与预先规定的第二信号匹配,则从所述至少两路语音信号中,确定特定的麦克风当前所采集到的语音信号;其中,所述预先规定的第二信号为所述加速度计在所述终端处于水平放置状态时输出的信号;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度;
所述特定的麦克风包括:在所述终端处于水平放置状态时处于同一水平线的至少一对麦克风,且每对麦克风均满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列。
7.如权利要求5或6所述的装置,其特征在于,所述处理单元,在采用预先设置的与所述当前应用模式的需求相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理时,具体用于:确定设置在所述终端上的各摄像头当前的状态;采用预先设置的、与所述当前应用模式的需求和所述各摄像头当前的状态均匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理。
8.如权利要求5所述的装置,其特征在于,所述处理单元,在采用预先设置的与所述当前应用模式的需求相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理时,具体用于:
根据所述终端当前的声效模式,判断所述终端是否需要合成环绕声声效的语音信号;
在判断出所述终端不需要合成环绕声声效的语音信号时,确定所述终端当前用于播放语音信号的部件;
在确定出所述部件为耳机时,对所述相对应的语音信号进行波束形成处理,使得生成的波束指向所述相对应的语音信号的共同声源所在位置;或者使得生成的波束的方向与输入所述终端的波束方向指示信息所表示的方向一致;其中,所述共同声源所在位置是根据所述相对应的语音信号对声源所在位置进行声源跟踪而确定出的;
在确定出所述部件为扬声器时,对所述相对应的语音信号进行波束形成处理,使得生成的波束在所述扬声器所在方向形成零陷。
9.如权利要求5所述的装置,所述终端中设置有加速度计;其特征在于,所述处理单元,在采用预先设置的与所述当前应用模式的需求相匹配的语音信号处理方式,对所述相对应的语音信号进行波束形成处理时,具体还用于:
在判断出所述终端需要合成环绕声声效的语音信号,且判断出所述加速度计当前输出的信号与预先规定的信号匹配时,从所述相对应的语音信号中选取当前沿水平方向分布的一对麦克风分别采集的语音信号,以及当前沿垂直方向分布的一对麦克风分别采集的语音信号;其中,所述当前沿水平方向分布的一对麦克风满足:其中的一个麦克风属于所述第一麦克风阵列,另一个麦克风属于所述第二麦克风阵列;所述当前沿垂直方向分布的一对麦克风均属于所述第一麦克风阵列或第二麦克风阵列;
对选取的所述沿水平方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第一分量;对选取的所述沿垂直方向分布的一对麦克风分别采集的语音信号进行差分处理,获得声场一阶第二分量;并通过对所述相对应的语音信号的均值化处理,获得声场零阶分量;
利用所述声场一阶第一分量、所述声场一阶第二分量和所述声场零阶分量,生成波束方向与特定方向一致的不同波束;
其中,所述预先规定的信号为所述加速度计在所述终端处于垂直放置状态或水平放置状态时输出的信号;处于垂直放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为90度;处于水平放置状态的所述终端满足:所述终端的纵向中轴线与水平面的夹角为0度。
CN201310412886.6A 2013-09-11 2013-09-11 语音信号处理方法与装置 Active CN104424953B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310412886.6A CN104424953B (zh) 2013-09-11 2013-09-11 语音信号处理方法与装置
PCT/CN2014/076375 WO2015035785A1 (zh) 2013-09-11 2014-04-28 语音信号处理方法与装置
US15/066,285 US9922663B2 (en) 2013-09-11 2016-03-10 Voice signal processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310412886.6A CN104424953B (zh) 2013-09-11 2013-09-11 语音信号处理方法与装置

Publications (2)

Publication Number Publication Date
CN104424953A CN104424953A (zh) 2015-03-18
CN104424953B true CN104424953B (zh) 2019-11-01

Family

ID=52665016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310412886.6A Active CN104424953B (zh) 2013-09-11 2013-09-11 语音信号处理方法与装置

Country Status (3)

Country Link
US (1) US9922663B2 (zh)
CN (1) CN104424953B (zh)
WO (1) WO2015035785A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089638B1 (ko) * 2013-08-26 2020-03-16 삼성전자주식회사 전자장치의 음성 녹음 방법 및 장치
CN106790940B (zh) * 2015-11-25 2020-02-14 华为技术有限公司 录音方法、录音播放方法、装置及终端
US20170222678A1 (en) * 2016-01-29 2017-08-03 Geelux Holdings, Ltd. Biologically compatible mobile communication device
FR3050601B1 (fr) * 2016-04-26 2018-06-22 Arkamys Procede et systeme de diffusion d'un signal audio a 360°
CN105976826B (zh) * 2016-04-28 2019-10-25 中国科学技术大学 应用于双麦克风小型手持设备的语音降噪方法
CN105810195B (zh) * 2016-05-13 2023-03-10 漳州万利达科技有限公司 一种智能机器人的多角度定位系统
CN107426392B (zh) * 2016-05-24 2019-11-01 展讯通信(上海)有限公司 免提通话终端及其语音信号处理方法、装置
CN107426391B (zh) * 2016-05-24 2019-11-01 展讯通信(上海)有限公司 免提通话终端及其语音信号处理方法、装置
CN105959457B (zh) * 2016-06-28 2017-11-24 广东欧珀移动通信有限公司 基于双麦克风的录音方法及终端
CN106231498A (zh) * 2016-09-27 2016-12-14 广东小天才科技有限公司 一种麦克风音频采集效果的调整方法及装置
CN106331956A (zh) * 2016-11-04 2017-01-11 北京声智科技有限公司 集成远场语音识别和声场录制的系统和方法
DE102016225205A1 (de) * 2016-12-15 2018-06-21 Sivantos Pte. Ltd. Verfahren zum Bestimmen einer Richtung einer Nutzsignalquelle
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
CN108012217A (zh) * 2017-11-30 2018-05-08 出门问问信息科技有限公司 联合降噪的方法及装置
CN107948792B (zh) * 2017-12-07 2020-03-31 歌尔科技有限公司 左右声道确定方法及耳机设备
CN108172220B (zh) * 2018-02-22 2022-02-25 成都启英泰伦科技有限公司 一种新型语音除噪方法
CN108922555A (zh) * 2018-06-29 2018-11-30 北京小米移动软件有限公司 语音信号的处理方法及装置、终端
CN109215688B (zh) * 2018-10-10 2020-12-22 麦片科技(深圳)有限公司 同场景音频处理方法、装置、计算机可读存储介质及系统
CN109348359B (zh) 2018-10-29 2020-11-10 歌尔科技有限公司 一种音响设备及其音效调整方法、装置、设备、介质
US11956590B2 (en) 2019-03-19 2024-04-09 Northwestern Polytechnical University Flexible differential microphone arrays with fractional order
CN110164425A (zh) * 2019-05-29 2019-08-23 北京声智科技有限公司 一种降噪方法、装置及可实现降噪的设备
CN112071312B (zh) * 2019-06-10 2024-03-29 海信视像科技股份有限公司 一种语音控制方法及显示设备
CN110660404B (zh) * 2019-09-19 2021-12-07 北京声加科技有限公司 基于零陷滤波预处理的语音通信和交互应用系统、方法
CN111081233B (zh) * 2019-12-31 2023-01-06 联想(北京)有限公司 一种音频处理方法及电子设备
CN113132863B (zh) * 2020-01-16 2022-05-24 华为技术有限公司 立体声拾音方法、装置、终端设备和计算机可读存储介质
US11699440B2 (en) 2020-05-08 2023-07-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN112489672A (zh) * 2020-10-23 2021-03-12 盘正荣 一种虚拟隔音通信系统与方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050239516A1 (en) 2004-04-27 2005-10-27 Clarity Technologies, Inc. Multi-microphone system for a handheld device
CN100524465C (zh) * 2006-11-24 2009-08-05 北京中星微电子有限公司 一种噪声消除装置和方法
KR20080111290A (ko) * 2007-06-18 2008-12-23 삼성전자주식회사 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법
DE102007033183B4 (de) 2007-07-13 2011-04-21 Auto-Kabel Management Gmbh Verpolschutzeinrichtung und Verfahren zum Unterbrechen eines Stromes
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US8320572B2 (en) * 2008-07-31 2012-11-27 Fortemedia, Inc. Electronic apparatus comprising microphone system
US8401178B2 (en) 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
EP2387032B1 (en) 2009-01-06 2017-03-01 Mitsubishi Electric Corporation Noise cancellation device and noise cancellation program
CN101593522B (zh) * 2009-07-08 2011-09-14 清华大学 一种全频域数字助听方法和设备
US8644517B2 (en) * 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
KR101669020B1 (ko) * 2009-11-25 2016-11-09 삼성전자주식회사 휴대용 단말기의 스피커 모듈 및 스피커폰 모드 실행 방법
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
CN102859591B (zh) * 2010-04-12 2015-02-18 瑞典爱立信有限公司 用于语音编码器中的噪声消除的方法和装置
US8929564B2 (en) * 2011-03-03 2015-01-06 Microsoft Corporation Noise adaptive beamforming for microphone arrays
CN102300140B (zh) 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
GB2495128B (en) * 2011-09-30 2018-04-04 Skype Processing signals
CN102801861B (zh) 2012-08-07 2015-08-19 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置
US9525938B2 (en) * 2013-02-06 2016-12-20 Apple Inc. User voice location estimation for adjusting portable device beamforming settings

Also Published As

Publication number Publication date
US9922663B2 (en) 2018-03-20
WO2015035785A1 (zh) 2015-03-19
CN104424953A (zh) 2015-03-18
US20160189728A1 (en) 2016-06-30

Similar Documents

Publication Publication Date Title
CN104424953B (zh) 语音信号处理方法与装置
US9361898B2 (en) Three-dimensional sound compression and over-the-air-transmission during a call
JP6121481B2 (ja) マルチマイクロフォンを用いた3次元サウンド獲得及び再生
US8855341B2 (en) Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
CN110537221A (zh) 用于空间音频处理的两阶段音频聚焦
CN104010265A (zh) 音频空间渲染设备及方法
EP1433355A1 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
CN106797526B (zh) 音频处理装置、方法和计算机可读记录介质
EP3440845A1 (en) Cylindrical microphone array for efficient recording of 3d sound fields
CN110890100B (zh) 语音增强、多媒体数据采集、播放方法、装置及监控系统
CN105684466B (zh) 立体声再现方法和设备
JP2005198251A (ja) 球体を用いた3次元オーディオ信号処理システム及びその方法
CN104735582B (zh) 一种声音信号处理方法、装置及设备
CN108966110B (zh) 声音信号处理方法、装置及系统、终端及存储介质
CN117118956B (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
WO2021212287A1 (zh) 音频信号处理方法、音频处理装置及录音设备
KR100932791B1 (ko) 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법
Usagawa et al. Binaural speech segregation system on single board computer
JP5698110B2 (ja) マルチチャネルエコー消去方法、マルチチャネルエコー消去装置、およびプログラム
AU2002325063A1 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant