CN114513715A - 电子设备中执行语音处理的方法、装置、电子设备及芯片 - Google Patents
电子设备中执行语音处理的方法、装置、电子设备及芯片 Download PDFInfo
- Publication number
- CN114513715A CN114513715A CN202011288185.2A CN202011288185A CN114513715A CN 114513715 A CN114513715 A CN 114513715A CN 202011288185 A CN202011288185 A CN 202011288185A CN 114513715 A CN114513715 A CN 114513715A
- Authority
- CN
- China
- Prior art keywords
- microphone
- microphones
- electronic device
- target
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000000694 effects Effects 0.000 claims abstract description 66
- 230000003213 activating effect Effects 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 34
- 230000009467 reduction Effects 0.000 claims description 26
- 230000008859 change Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000004807 localization Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Telephone Function (AREA)
Abstract
本申请提供了一种电子设备中执行语音处理的方法、装置、电子设备及芯片,可以权衡定位效果与功耗,以及适应周围环境变换,提升用户体验。电子设备中执行语音处理的方法包括:根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,第一麦克风模式包括电子设备的M个麦克风和与电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,第二麦克风模式包括电子设备的M个麦克风组成的麦克风阵列,第三麦克风模式包括耳机的N个麦克风组成的麦克风阵列,M和N为正整数;激活目标麦克风模式中的麦克风阵列,以及获取周围环境的语音信号;以及对语音信号进行定位处理,以得到目标语音信号。
Description
技术领域
本发明涉及人机语音交互技术领域,并且更具体地,涉及一种电子设备中执行语音处理的方法、装置、电子设备及芯片。
背景技术
随着麦克风阵列技术愈趋成熟,其已成为语音信号声源定位的重要部分。电子设备(如手机)上安装有一定数量和尺寸规格的麦克风,这些麦克风即可组成麦克风阵列。然而,电子设备上安装过多的麦克风势必会增大电子设备的功耗,如何权衡定位效果与功耗,是一个亟待解决的问题。此外,电子设备所处的环境可能会发生改变,对定位和降噪效果可能会有不同的需求,麦克风阵列如何适应周围环境变换,也是一个亟待解决的问题。
发明内容
本申请提供了一种电子设备中执行语音处理的方法、装置、电子设备及芯片,用户能够从多种麦克风模式中选择适合的麦克风模式,从而可以权衡定位效果与功耗,以及适应周围环境变换,提升用户体验。
第一方面,提供了一种电子设备中执行语音处理的方法,包括:
根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,该第一麦克风模式包括该电子设备的M个麦克风和与该电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,该第二麦克风模式包括该电子设备的M 个麦克风组成的麦克风阵列,该第三麦克风模式包括该耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
激活该目标麦克风模式中的麦克风阵列,以及获取周围环境的语音信号;以及
对该语音信号进行定位处理,以得到目标语音信号。
在一些可能的实现方式中,该M个麦克风为该电子设备的部分或者全部麦克风。
在一些实施例中,该N个麦克风为该耳机的部分或者全部麦克风。
在一些可能的实现方式中,2≤M≤4,2≤N≤6。
在一些可能的实现方式中,该第一用户指令是根据麦克风功耗、定位效果、降噪效果中的至少一种确定的。
在一些可能的实现方式中,该定位处理至少包括声纹识别。
在一些可能的实现方式中,该方法还包括:
根据第二用户指令选择是否对该目标语音信号进行云端声效处理;以及
若是,则对该目标语音信号进行云端声效处理。
在一些可能的实现方式中,该云端声效处理包括以下中的至少一种:
变调、变速、房间混响、回声、转换为目标人物的声音,转换为目标人群的声音。
在一些可能的实现方式中,该方法还包括:
对该目标语音信号进行降噪处理。
在一些可能的实现方式中,该方法还包括:
对该目标语音信号进行盲源分离处理,以确定该目标语音信号的声源。
第二方面,提供了一种电子设备中执行语音处理的装置,包括:
选择单元,用于根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,该第一麦克风模式包括该电子设备的M个麦克风和与该电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,该第二麦克风模式包括该电子设备的M个麦克风组成的麦克风阵列,该第三麦克风模式包括该耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
激活单元,用于激活该目标麦克风模式中的麦克风阵列;
获取单元,用于获取该目标麦克风模式中的麦克风阵列周围环境的语音信号;以及
处理单元,用于对该语音信号进行定位处理,以得到目标语音信号。
在一些可能的实现方式中,该M个麦克风为该电子设备的部分或者全部麦克风。
在一些实施例中,该N个麦克风为该耳机的部分或者全部麦克风。
在一些可能的实现方式中,2≤M≤4,2≤N≤6。
在一些可能的实现方式中,该第一用户指令是根据麦克风功耗、定位效果、降噪效果中的至少一种确定的。
在一些可能的实现方式中,该定位处理至少包括声纹识别。
在一些可能的实现方式中,该选择单元还用于根据第二用户指令选择是否对该目标语音信号进行云端声效处理;以及
若是,则该处理单元还用于对该目标语音信号进行云端声效处理。
在一些可能的实现方式中,该云端声效处理包括以下中的至少一种:
变调、变速、房间混响、回声、转换为目标人物的声音,转换为目标人群的声音。
在一些可能的实现方式中,该处理单元还用于对该目标语音信号进行降噪处理。
在一些可能的实现方式中,该处理单元还用于对该目标语音信号进行盲源分离处理,以确定该目标语音信号的声源。
第三方面,提供了一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行上述第一方面或其各实现方式中的方法。
第四方面,提供了一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得该处理器执行上述第一方面或其各实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行上述第一方面或其各实现方式中的方法。
第六方面,提供了一种电子设备,其特征在于,包括:
第一数量的第一麦克风;以及
与该电子设备配对连接的耳机,其包括第二数量的第二麦克风,其中该第二数量大于等于该第一数量;
其中,根据第一用户指令,该第一麦克风和该第二麦克风配置为相应的麦克风阵列来获取周围环境的语音信号,并且对该语音信号进行定位处理,以得到目标语音信号。
通过上述技术方案,根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,以及基于目标麦克风模式中的麦克风阵列,以及获取麦克风阵列周围环境的语音信号。也即,用户能够从多种麦克风模式中选择适合的麦克风模式,从而可以权衡定位效果与功耗,以及适应周围环境变换,提升用户体验。
附图说明
图1是根据本申请实施例的一种电子设备中执行语音处理的方法的示意性流程图。
图2是根据本申请实施例的语音处理的流程图。
图3是根据本申请实施例的语音处理的框架图。
图4是根据本申请实施例的一种电子设备中执行语音处理的装置的示意性框图。
图5示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
图6是根据本申请实施例提供的一种芯片的示意性框图。
图7是根据本申请实施例提供的一种电子设备与耳机的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。针对本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,电子设备可以是手机(Mobile Phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality,VR)终端设备、增强现实(AugmentedReality, AR)终端设备、工业控制(industrial control)中的无线终端设备、无人驾驶(self driving) 中的无线终端设备、远程医疗(remote medical)中的无线终端设备、智能电网(smart grid) 中的无线终端设备、运输安全(transportation safety)中的无线终端设备、智慧城市(smart city)中的无线终端设备或智慧家庭(smart home)中的无线终端设备等。
作为示例而非限定,在本申请实施例中,电子设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备,是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,例如:智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
在本申请实施例中,耳机可以通过有线或者无线方式与电子设备配对连接。
在本申请实施例中,电子设备和耳机都上安装有一定数量和尺寸规格的麦克风,这些麦克风可以组成麦克风阵列。
以下,结合图1至图3,详细介绍本申请实施例的电子设备中执行语音处理的方法。
图1是根据本申请实施例的电子设备中执行语音处理的方法100的示意性流程图,如图1所示,该方法100可以包括但不限于如下内容:
S110,根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,该第一麦克风模式包括该电子设备的M个麦克风和与该电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,该第二麦克风模式包括该电子设备的M个麦克风组成的麦克风阵列,该第三麦克风模式包括该耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
S120,激活该目标麦克风模式中的麦克风阵列,以及获取周围环境的语音信号;以及 S130,对该语音信号进行定位处理,以得到目标语音信号。
应理解,图1示出了该方法的步骤或操作,但这些步骤或操作仅是示例,本申请实施例还可以执行其他操作或者图1中的各个操作的变形。该方法100可以由电子设备执行,具体例如,该方法100由电子设备中的中央处理器(central processing unit,CPU)或者微处理器(Microprocessor)执行。
在本申请实施例中,第一麦克风模式中的麦克风阵列结合了电子设备的M个麦克风和耳机的N个麦克风,定位和降噪性能优异。因此,第一麦克风模式中的麦克风阵列的定位和降噪性能优于第二麦克风模式中的麦克风阵列,以及第一麦克风模式中的麦克风阵列的定位和降噪性能优于第三麦克风模式中的麦克风阵列。
在本申请实施例中,第二麦克风模式中的麦克风阵列所包括的麦克风较少,从算法和工程上极大减少了麦克风阵列所需算力,从而可以降低麦克风阵列的功耗。第三麦克风模式中的麦克风阵列所包括的麦克风也较少,从算法和工程上极大减少了麦克风阵列所需算力,从而可以降低麦克风阵列的功耗。
在本申请实施例中,声音效果在麦克风阵列中的应用,比在单麦克风上使用更加优异,因为从麦克风阵列信号处理之后获取的语音是去除了环境噪音后的说话人语音,应用声效算法后不需要考虑非稳态噪声。
在本申请实施例中,电子设备可以通过用户界面(User Interface,UI)获取用户指令,或者,电子设备可以呈现UI界面,以便用户输入用户指令。
需要说明的是,单个麦克风的作用是作为传感器将声波转换为电流信号,麦克风阵列能够形成麦克风方向上的指向性波束,即波束的主瓣方向上的声音信号得到增强,旁瓣方向上的信号会被抑制,同时通过时延估计等算法可以进行到达方向估计(Directionof Arrival,DOA)操作。
在本申请实施例中,与电子设备配对连接的耳机可以是单耳式耳机,也可以是双耳式耳机,本申请对此并不限定。
在一些实施例中,S130中的定位处理至少包括声纹识别。也即,至少对该语音信号进行声纹识别,得到目标语音信号。
可选地,S130中的定位处理还可以包括但不限于以下中的至少一种:
回声消除(Acoustic echo cancellation,AEC)、去混响(Dereverberation,DER)、语音活动检测(Voice activity detection,VAD)、波束形成(Beamforming,BF)、广义旁瓣抵消器(Generalized Sidelobe Canceller,GSC),DOA,后置滤波(Post filtering,PF)。
在一些实施例中,该M个麦克风为该电子设备的部分或者全部麦克风。
假设电子设备上安装有2个麦克风,此种情况下,例如,M=1,或者,M=2。优选地,M=2。
假设电子设备上安装有4个麦克风,此种情况下,例如,M=1,或者,M=2,或者, M=3,或者,M=4。优选地,M=4。
需要说明的是,本申请实施例对电子设备中麦克风的具体安装位置不作限定。
在一些实施例中,该N个麦克风为该耳机的部分或者全部麦克风。
假设耳机上安装有2个麦克风,此种情况下,例如,N=1,或者,N=2。优选地,N=2。
假设耳机上安装有4个麦克风,此种情况下,例如,N=1,或者,N=2,或者,N=3,或者,N=4。优选地,N=4。
假设耳机上安装有6个麦克风,此种情况下,例如,N=1,或者,N=2,或者,N=3,或者,N=4,或者,N=5,或者,N=6。优选地,N=6。
需要说明的是,本申请实施例对耳机中麦克风的具体安装位置不作限定。
在一些实施例中,2≤M≤4,2≤N≤6。
可选地,本申请实施例中采用的麦克风的尺寸和规格可以保持一致,所以不存在主副麦克风分别拾取不同声源的方式。
在一些实施例中,在得到目标语音信号之后,可以在云端对该目标语音信号进行自动语音识别(Automatic speech recognition,ASR)。从而提高语音识别的准确性。
需要说明的是,云端可以执行一些较为复杂或者运算量较大的处理,具体可以通过诸如深度学习模型、长短记忆(Long Short Term Memory,LSTM)网络模型等实现。
云端处理可以基于云服务实现,云服务可以与人工智能(ArtificialIntelligence,AI) 结合,即人工智能云服务,一般也被称作是AI即服务(AI as aService,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过应用程序接口(Application ProgrammingInterface,API)接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
可选地,在本申请实施例中,该第一用户指令是根据麦克风功耗、定位效果、降噪效果中的至少一种确定的。也即,用户可以根据麦克风功耗、定位效果、降噪效果中的至少一种确定该第一用户指令。
例如,在电子设备的待电量不足时,用户可以根据麦克风功耗确定第一用户指令,以及通过第一用户指令指示电子设备选择第二麦克风模式或者第三麦克风模式作为目标麦克风模式,以降低麦克风阵列功耗,从而增加电子设备的待机时间,提升用户体验。
又例如,在电子设备的待电量充足时,用户可以根据麦克风功耗确定第一用户指令,以及通过第一用户指令指示电子设备选择第一麦克风模式作为目标麦克风模式,由于第一麦克风模式中的麦克风阵列结合了电子设备的M个麦克风和耳机的N个麦克风,定位和降噪性能优异,从而提升了定位和降噪性能,提升用户体验。
再例如,在较为安静的环境中,用户可以根据定位效果和/或降噪效果确定第一用户指令,以及通过第一用户指令指示电子设备选择第二麦克风模式或者第三麦克风模式作为目标麦克风模式,以降低麦克风阵列功耗,提升用户体验。
再例如,在较为嘈杂的环境中,用户可以根据定位效果和/或降噪效果确定第一用户指令,以及通过第一用户指令指示电子设备选择第一麦克风模式作为目标麦克风模式,由于第一麦克风模式中的麦克风阵列结合了电子设备的M个麦克风和耳机的N个麦克风,定位和降噪性能优异,从而提升了定位和降噪性能,提升用户体验。
可选地,在一些实施例中,该方法100还包括:
根据第二用户指令选择是否对该目标语音信号进行云端声效处理;以及
若是,则对该目标语音信号进行云端声效处理。
可选地,若根据该第二用户指令选择不对该目标语音信号进行云端声效处理,则直接输出该目标语音信号。
也即,电子设备可以根据第二用户指令选择是否对目标语音信号进行云端声效处理。也就是说,云端声效处理可以基于用户的需求执行。
可选地,该云端声效处理包括以下中的至少一种:
变调、变速、房间混响、回声、转换为目标人物的声音,转换为目标人群的声音。
目标人物例如可以是某一歌手、某一喜剧演员、某一英雄人物等。
目标人群例如可以是男人、女人、老人、小孩等。
在一些实施例中,电子设备还可以对该目标语音信号进行本地声效处理,其中,本地声效处理是对目标语音信号的基频、共振峰进行改动、使用滤波器卷积房间冲激响应等,具体可以包含变调、变速、房间混响、回声等效果。
需要说明的是,本地声效处理可以与上述云端声效处理同步进行,本地声效处理也可以在上述云端声效处理之前进行,本申请对此并不限定。
可选地,在一些实施例中,该方法100还包括:
对该目标语音信号进行降噪处理。从而优化降噪效果,提升用户体验。
可选地,在一些实施例中,该方法100还包括:
对该目标语音信号进行盲源分离(Blind source separation,BSS)处理,以确定该目标语音信号的声源。
进一步地,可以在云端对该目标语音信号进行盲源分离处理,以确定该目标语音信号的声源。
以下,结合图2和图3,详细说明本申请实施例的语音处理的流程。
应理解,图2和图3所示的例子是为了帮助本领域技术人员更好地理解本申请实施例,而非要限制本申请实施例的范围。本领域技术人员根据所给出的图2和图3,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
图2是根据本申请实施例的语音处理的流程图。
S201,用户根据麦克风功耗、定位效果、降噪效果中的至少一种确定第一用户指令。
S202,电子设备根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式。
其中,第一麦克风模式包括电子设备的M个麦克风和与电子设备配对连接的耳机的N 个麦克风组成的麦克风阵列;第二麦克风模式包括电子设备的M个麦克风组成的麦克风阵列;第三麦克风模式包括耳机的N个麦克风组成的麦克风阵列;M和N为正整数。
S203,电子设备激活目标麦克风模式中的麦克风阵列,以及获取目标麦克风模式中的麦克风阵列周围环境的语音信号。
S204,电子设备使用声学前端信号处理模块对获取的语音信号进行定位处理,得到目标语音信号。
其中,定位处理包括但不限于以下至少一种:
回声消除(AEC)、去混响(DER)、语音活动检测(VAD)、波束形成(BF)、广义旁瓣抵消器(GSC)、到达方向估计(DOA)。
S205,电子设备对目标语音信号进行降噪处理,得到降噪后的语音信号。
其中,降噪处理例如可以是后置滤波(PF)。
S206,电子设备对降噪后的语音信号进行本地声效处理。
其中,本地声效处理是对目标语音信号的基频、共振峰进行改动、使用滤波器卷积房间冲激响应等,具体可以包含变调、变速、房间混响、回声等效果。
S207,电子设备根据第二用户指令选择是否对降噪后的语音信号进行云端声效处理;
若是,则对降噪后的语音信号进行云端声效处理,即执行S208;
若否,则直接输出降噪后的语音信号。
其中,云端声效处理包括但不限于以下中的至少一种:
转换为目标人物的声音,转换为目标人群的声音。
S208,对降噪后的语音信号进行云端声效处理。
可选地,本地声效处理(S206)可以与云端声效处理(S208)同步进行。
图3是根据本申请实施例的语音处理的框架图。主要分为本地处理和云端处理两部分,本地的处理算法所需的信号来自电子设备端麦克风和耳机端麦克风,云端的处理算法所需的信号来自本地处理结束之后的语音信号。本地声效处理和云端声效处理之后的语音信号再经过耳机回放。
因此,在本申请实施例中,根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,以及基于目标麦克风模式中的麦克风阵列,以及获取麦克风阵列周围环境的语音信号。也即,用户能够从多种麦克风模式中选择适合的麦克风模式,从而可以权衡定位效果与功耗,以及适应周围环境变换,提升用户体验。
进一步地,在本申请实施例中,可以基于第二用户指令选择是否对目标语音信号进行云端声效处理,提升用户体验。
上文结合图1至图3,详细描述了本申请的方法实施例,下文结合图4至图7,详细描述本申请的装置实施例,应理解,装置实施例与方法实施例相互对应,类似的描述可以参照方法实施例。
图4示出了根据本申请实施例的电子设备中执行语音处理的装置300的示意性框图。如图4所示,该电子设备中执行语音处理的装置300包括:
选择单元310,用于根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,该第一麦克风模式包括该电子设备的M个麦克风和与该电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,该第二麦克风模式包括该电子设备的M个麦克风组成的麦克风阵列,该第三麦克风模式包括该耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
激活单元320,用于激活该目标麦克风模式中的麦克风阵列;
获取单元330,用于获取该目标麦克风模式中的麦克风阵列周围环境的语音信号;
处理单元340,用于对该语音信号进行定位处理,得到目标语音信号。
可选地,该M个麦克风为该电子设备的部分或者全部麦克风。
可选地,该N个麦克风为该耳机的部分或者全部麦克风。
可选地,2≤M≤4,2≤N≤6。
可选地,该第一用户指令是根据麦克风功耗、定位效果、降噪效果中的至少一种确定的。
可选地,该定位处理至少包括声纹识别。
可选地,该选择单元310还用于根据第二用户指令选择是否对该目标语音信号进行云端声效处理;
若是,则该处理单元340还用于对该目标语音信号进行云端声效处理。
可选地,该云端声效处理包括以下中的至少一种:
变调、变速、房间混响、回声、转换为目标人物的声音,转换为目标人群的声音。
可选地,该处理单元340还用于对该目标语音信号进行降噪处理。
可选地,该处理单元340还用于对该目标语音信号进行盲源分离处理,以确定该目标语音信号的声源。
应理解,根据本申请实施例的电子设备中执行语音处理的装置300可对应于本申请方法实施例中的电子设备,并且电子设备中执行语音处理的装置300中的各个单元的上述和其它操作和/或功能分别为了实现图1所示方法100中电子设备的相应流程,为了简洁,在此不再赘述。
图5示出了实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图5示出的电子设备的计算机系统400仅是一个示例,不应该对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统400包括中央处理单元(Central Processing Unit,CPU)401,其可以根据存储在只读存储器(Read-Only Memory,ROM)402中的程序或者从存储部分408加载到随机访问存储器(Random Access Memory,RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统操作所需的各种程序和数据。CPU 401、 ROM 402以及RAM 403通过总线404彼此相连。输入/输出(Input/Output,I/O)接口405 也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分404;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如局域网(Local AreaNetwork,LAN)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质 411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读取的计算机程序根据需要被安装入存储部分408。
特别地,根据本申请实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行上述流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理器(CPU)401执行时,执行本申请的装置中限定的各种功能。
图6是本申请实施例的芯片的示意性结构图。图6所示的芯片500包括处理器510,处理器510可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图6所示,芯片500还可以包括存储器520。其中,处理器510可以从存储器520中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器520可以是独立于处理器510的一个单独的器件,也可以集成在处理器 510中。
可选地,该芯片500还可以包括输入接口530。其中,处理器510可以控制该输入接口530与其他设备或芯片进行通信,具体地,可以获取其他设备或芯片发送的信息或数据。
可选地,该芯片500还可以包括输出接口540。其中,处理器510可以控制该输出接口540与其他设备或芯片进行通信,具体地,可以向其他设备或芯片输出信息或数据。
可选地,该芯片可应用于本申请实施例中的电子设备,并且该芯片可以实现本申请实施例的各个方法中由电子设备实现的相应流程,为了简洁,在此不再赘述。
上述芯片例如可以是系统级芯片,系统芯片,芯片系统或片上系统芯片等。
在一个实施例中,提供了一种电子设备600,包括:
第一数量的第一麦克风610;以及
与该电子设备600配对连接的耳机700,其包括第二数量的第二麦克风710,其中该第二数量大于等于该第一数量;
其中,根据第一用户指令,该第一麦克风610和该第二麦克风710配置为相应的麦克风阵列来获取周围环境的语音信号,并且对该语音信号进行定位处理,以得到目标语音信号。具体可以如图7所示。
在一个实施例中,提供了一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM, EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM, SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM) 等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。针对这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (15)
1.一种电子设备中执行语音处理的方法,其特征在于,包括:
根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,所述第一麦克风模式包括所述电子设备的M个麦克风和与所述电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,所述第二麦克风模式包括所述电子设备的M个麦克风组成的麦克风阵列,所述第三麦克风模式包括所述耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
激活所述目标麦克风模式中的麦克风阵列,以及获取周围环境的语音信号;以及
对所述语音信号进行定位处理,以得到目标语音信号。
2.根据权利要求1所述的方法,其特征在于,所述M个麦克风为所述电子设备的部分或者全部麦克风。
3.根据权利要求1所述的方法,其特征在于,所述N个麦克风为所述耳机的部分或者全部麦克风。
4.根据权利要求1所述的方法,其特征在于,2≤M≤4,2≤N≤6。
5.根据权利要求1所述的方法,其特征在于,所述第一用户指令是根据麦克风功耗、定位效果、降噪效果中的至少一种确定的。
6.根据权利要求1所述的方法,其特征在于,所述定位处理至少包括声纹识别。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
根据第二用户指令选择是否对所述目标语音信号进行云端声效处理;以及
若是,则对所述目标语音信号进行云端声效处理。
8.根据权利要求7所述的方法,其特征在于,所述云端声效处理包括以下中的至少一种:
变调、变速、房间混响、回声、转换为目标人物的声音,转换为目标人群的声音。
9.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
对所述目标语音信号进行降噪处理。
10.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
对所述目标语音信号进行盲源分离处理,以确定所述目标语音信号的声源。
11.一种电子设备中执行语音处理的装置,其特征在于,包括:
选择单元,用于根据第一用户指令从第一麦克风模式、第二麦克风模式和第三麦克风模式中选择目标麦克风模式,其中,所述第一麦克风模式包括所述电子设备的M个麦克风和与所述电子设备配对连接的耳机的N个麦克风组成的麦克风阵列,所述第二麦克风模式包括所述电子设备的M个麦克风组成的麦克风阵列,所述第三麦克风模式包括所述耳机的N个麦克风组成的麦克风阵列,M和N为正整数;
激活单元,用于激活所述目标麦克风模式中的麦克风阵列;
获取单元,用于获取所述目标麦克风模式中的麦克风阵列周围环境的语音信号;以及
处理单元,用于对所述语音信号进行定位处理,以得到目标语音信号。
12.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至10中任一项所述的方法。
13.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得所述处理器执行如权利要求1至10中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。
15.一种电子设备,其特征在于,包括:
第一数量的第一麦克风;以及
与所述电子设备配对连接的耳机,其包括第二数量的第二麦克风,其中所述第二数量大于等于所述第一数量;
其中,根据第一用户指令,所述第一麦克风和所述第二麦克风配置为相应的麦克风阵列来获取周围环境的语音信号,并且对所述语音信号进行定位处理,以得到目标语音信号。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288185.2A CN114513715A (zh) | 2020-11-17 | 2020-11-17 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
PCT/CN2021/118033 WO2022105392A1 (zh) | 2020-11-17 | 2021-09-13 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011288185.2A CN114513715A (zh) | 2020-11-17 | 2020-11-17 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114513715A true CN114513715A (zh) | 2022-05-17 |
Family
ID=81546828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011288185.2A Pending CN114513715A (zh) | 2020-11-17 | 2020-11-17 | 电子设备中执行语音处理的方法、装置、电子设备及芯片 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114513715A (zh) |
WO (1) | WO2022105392A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115474117B (zh) * | 2022-11-03 | 2023-01-10 | 深圳黄鹂智能科技有限公司 | 基于三麦克风的收音方法和收音装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800323A (zh) * | 2012-06-25 | 2012-11-28 | 华为终端有限公司 | 移动终端语音降噪的方法及装置 |
CN103999488A (zh) * | 2011-12-19 | 2014-08-20 | 高通股份有限公司 | 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能 |
US20140314242A1 (en) * | 2013-04-19 | 2014-10-23 | Plantronics, Inc. | Ambient Sound Enablement for Headsets |
CN107205196A (zh) * | 2017-05-19 | 2017-09-26 | 歌尔科技有限公司 | 麦克风阵列指向的调整方法和装置 |
CN108012217A (zh) * | 2017-11-30 | 2018-05-08 | 出门问问信息科技有限公司 | 联合降噪的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3455853A2 (en) * | 2016-05-13 | 2019-03-20 | Bose Corporation | Processing speech from distributed microphones |
CN111479180B (zh) * | 2019-01-24 | 2022-04-29 | Oppo广东移动通信有限公司 | 拾音控制方法及相关产品 |
-
2020
- 2020-11-17 CN CN202011288185.2A patent/CN114513715A/zh active Pending
-
2021
- 2021-09-13 WO PCT/CN2021/118033 patent/WO2022105392A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103999488A (zh) * | 2011-12-19 | 2014-08-20 | 高通股份有限公司 | 自动化用户/传感器定位辨识以在分布式多传感器环境中定制音频性能 |
CN102800323A (zh) * | 2012-06-25 | 2012-11-28 | 华为终端有限公司 | 移动终端语音降噪的方法及装置 |
US20140314242A1 (en) * | 2013-04-19 | 2014-10-23 | Plantronics, Inc. | Ambient Sound Enablement for Headsets |
CN107205196A (zh) * | 2017-05-19 | 2017-09-26 | 歌尔科技有限公司 | 麦克风阵列指向的调整方法和装置 |
CN108012217A (zh) * | 2017-11-30 | 2018-05-08 | 出门问问信息科技有限公司 | 联合降噪的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022105392A1 (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11308977B2 (en) | Processing method of audio signal using spectral envelope signal and excitation signal and electronic device including a plurality of microphones supporting the same | |
EP4060658A1 (en) | Voice wake-up method, apparatus, and system | |
CN110785808B (zh) | 具有唤醒字检测的音频设备 | |
EP3711306B1 (en) | Interactive system for hearing devices | |
CN108475502B (zh) | 用于提供环境感知的方法和系统及计算机可读存储介质 | |
TWI502584B (zh) | 電腦實施的波束成形方法,波束成形系統及相關之非暫時性電腦可讀媒體 | |
KR101614790B1 (ko) | 카메라 구동 오디오 공간화 | |
KR102565882B1 (ko) | 복수의 마이크들을 포함하는 음향 출력 장치 및 복수의 마이크들을 이용한 음향 신호의 처리 방법 | |
CN110931000B (zh) | 语音识别的方法和装置 | |
WO2019090283A1 (en) | Coordinating translation request metadata between devices | |
US9818404B2 (en) | Environmental noise detection for dialog systems | |
US20200135230A1 (en) | System and method for acoustic signal processing | |
CN109270493B (zh) | 声源定位方法和装置 | |
CN110827846B (zh) | 采用加权叠加合成波束的语音降噪方法及装置 | |
KR20200132613A (ko) | 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치 | |
CN111863020B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
Chatterjee et al. | ClearBuds: wireless binaural earbuds for learning-based speech enhancement | |
CN115148197A (zh) | 语音唤醒方法、装置、存储介质及系统 | |
CN113228710B (zh) | 听力装置中的声源分离及相关方法 | |
KR20200072196A (ko) | 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법 | |
CN114513715A (zh) | 电子设备中执行语音处理的方法、装置、电子设备及芯片 | |
WO2022068694A1 (zh) | 电子设备及其唤醒方法 | |
KR20170019257A (ko) | 음향 데이터의 적응적 처리 | |
TW202247141A (zh) | 語音增強方法和系統 | |
US20200278832A1 (en) | Voice activation for computing devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220517 |
|
RJ01 | Rejection of invention patent application after publication |