CN116962937A - 穿戴设备、拾音方法及装置 - Google Patents

穿戴设备、拾音方法及装置 Download PDF

Info

Publication number
CN116962937A
CN116962937A CN202210393694.4A CN202210393694A CN116962937A CN 116962937 A CN116962937 A CN 116962937A CN 202210393694 A CN202210393694 A CN 202210393694A CN 116962937 A CN116962937 A CN 116962937A
Authority
CN
China
Prior art keywords
sound signal
target
pickup
sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210393694.4A
Other languages
English (en)
Inventor
朱梦尧
黎椿键
石超宇
李英明
张雯
陈景东
冷欣
杨懿晨
王贤锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210393694.4A priority Critical patent/CN116962937A/zh
Priority to PCT/CN2023/087315 priority patent/WO2023197997A1/zh
Publication of CN116962937A publication Critical patent/CN116962937A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供一种穿戴设备、拾音方法及装置,涉及终端技术领域,该拾音方法应用于电子设备,该方法包括:响应于第一操作,显示第一界面,第一界面用于配置拾音方向;响应于在第一界面上检测到的第二操作,确定目标拾音方向。电子设备可以通过第一界面提供拾音方向配置功能,使得用户可以根据实际应用情况选择目标拾音方向,使得电子设备在后续拾音过程中可以直接根据目标拾音方向拾取声音信号,或者根据目标拾音方向对拾取到的原始声音信号进行信号增强处理,以获取到原始声音信号位于目标拾音方向的增强声音信号,从而有效提高最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。

Description

穿戴设备、拾音方法及装置
技术领域
本申请涉及终端技术领域,尤其涉及一种穿戴设备、拾音方法及装置。
背景技术
随着科技的不断进步,穿戴设备(例如耳机、智能眼镜、智能手环等)已经成为人们日常生活中不可缺少的一部分。通过在穿戴设备中增加麦克风阵列,以使穿戴设备具备拾音功能。目前,穿戴设备的麦克风阵列中一般包括两颗全向麦克风,这两颗全向麦克风在穿戴设备中的设置位置尽可能与佩戴人的人嘴处在一条直线上,从而基于声音信号叠加的原理获取佩戴人的声音信号,然后基于差分阵列算法(Differential Microphone Array,DMA)来处理获取到的佩戴人的声音信号,以提高穿戴设备拾取佩戴人的声音信号的质量。
这种情况下,当麦克风阵列未有效在穿戴设备中安装,或佩戴人在相对噪杂的环境中使用穿戴设备时,掺杂了人声和环境噪声的音频信号会被穿戴设备中的麦克风同时采集,容易降低穿戴设备拾取到的声音信号的可懂度,影响了拾音质量,降低了信噪比。
发明内容
本申请提供一种穿戴设备、拾音方法及装置,一定程度上解决了拾取的声音信号的可懂度低,拾音质量差以及信噪比低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种穿戴设备,穿戴设备包括麦克风阵列,麦克风阵列中包括至少一个指向性麦克风;至少一个指向性麦克风的拾音波束方向互相正交。
基于本申请提供的穿戴设备,在该穿戴设备中设置包括有至少一个指向性麦克风的麦克风阵列,利用麦克风阵列中的至少一个指向性麦克风来拾取声音信号,充分利用指向性麦克风对特定方向的声音信号敏感的特点来采集声音信号,能够从获取声音的源头减少声音信号中掺杂的噪声,有效避免了由于采集了过于复杂的声音信号而降低了声音信号的质量,提升了获取到的声音信号的音质,提升信噪比。
此外,当至少一个指向性麦克风的拾音波束方向互相正交时,麦克风可以获取具有多个不同方向的声音信号,基于获取的声音信号可以进一步对获取的声音信号作多元化处理,提升麦克风的拾音性能,进而提升穿戴设备的整体性能,提升用户体验。
在第一方面的一个可能的实现方式中,麦克风阵列中还包括至少一个全向麦克风。
基于该可能的实现方式,当麦克风阵列中还包括有全向麦克风时,可以通过全向麦克风从所有方向均衡的拾取声音,以获取丰富、范围较广的音频信号或噪声,根据不同的实际应用需求,可以利用全向麦克风获取的音频信号或噪声对指向性麦克风采集的音频信号进行降噪、增强处理,以提升指向性麦克风的拾音质量,进一步提升穿戴设备的拾音性能。
在第一方面的一个可能的实现方式中,穿戴设备被配置为:当穿戴设备检测到目标拾音方向时,穿戴设备开启麦克风阵列中指向目标拾音方向的麦克风,并关闭麦克风阵列中未指向目标拾音方向的麦克风。
基于该可能的实现方式,在实际应用过程中,一方面能够节约穿戴设备的电量,提升用户体验,同时延长穿戴设备的使用寿命;另一方面穿戴设备根据检测到的目标拾音方向开启指向目标拾音方向的麦克风,并关闭其他麦克风,能够尽可能避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,增强拾音效果。
在第一方面的一个可能的实现方式中,穿戴设备被配置为:当检测到麦克风阵列中存在满足预设条件的第一指向性麦克风时,开启第一指向性麦克风,并关闭其他指向性麦克风;预设条件为第一指向性麦克风在预设时间段内拾取到的声音信号的信号质量大于其他指向性麦克风。
基于该可能的实现方式,一方面能够节约穿戴设备的电量,提升用户体验,同时延长穿戴设备的使用寿命;另一方面穿戴设备根据预设条件开启满足第一预设条件的第一指向性麦克风,并关闭其他麦克风,能够尽可能避免麦克风拾取到不满足预设条件的其他方向上的声音信号,增强拾音效果。
在第一方面的一个可能的实现方式中,穿戴设备为智能眼镜。
在第一方面的一个可能的实现方式中,当麦克风阵列中包括一个全向麦克风时,全向麦克风位于智能眼镜镜框的鼻梁或鼻托中。
在第一方面的一个可能的实现方式中,当麦克风阵列中包括两个全向麦克风时,两个全向麦克风分别位于智能眼镜的两个镜腿上;或者,两个全向麦克风分别位于智能眼镜的镜框两侧靠近两个镜腿的位置。
在第一方面的一个可能的实现方式中,当麦克风阵列中包括多个全向麦克风时,多个全向麦克风分布在智能眼镜的中间区域以及两侧区域,中间区域包括智能眼镜镜框的鼻梁和/或鼻托;两侧区域包括智能眼睛的两个镜腿和/或智能眼镜的镜框两侧靠近两个镜腿的位置。
基于上述几种可能的实现方式,根据全向麦克风的数量对全向麦克风进行位置的设置,以便于麦克风阵列中的全向麦克风能够尽可能的从多个方向均衡的拾取声音,以获取丰富、范围较广的音频信号或噪声,根据不同的实际应用需求,可以利用全向麦克风获取的音频信号或噪声对指向性麦克风采集的音频信号进行降噪、增强处理,提升指向性麦克风的拾音质量,进一步提升智能眼镜的拾音性能。
在第一方面的一个可能的实现方式中,指向性麦克风为8字型麦克风。
基于该可能的实现方式,当在穿戴设备的麦克风阵列中使用8字型指向性麦克风时,能够充分提高了8字型麦克风的利用率,降低穿戴设备的生产、制造及研发成本,提高穿戴设备的制造速率。
第二方面,本申请提供一种拾音方法,应用于电子设备,该方法包括:
响应于第一操作,显示第一界面,第一界面用于配置拾音方向;
响应于在所述第一界面上检测到的第二操作,确定目标拾音方向。
基于本申请提供的拾音方法,电子设备可以通过第一界面提供拾音方向配置功能,使得用户可以根据实际应用情况选择目标拾音方向,使得电子设备在后续拾音过程中可以直接根据目标拾音方向拾取声音信号,或者根据目标拾音方向对拾取到的原始声音信号进行信号增强处理,以获取到原始声音信号位于目标拾音方向的增强声音信号,从而有效提高最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
在第二方面的一个可能的实施方式中,本申请实施例提供的方法还包括:
获取原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号。
基于该可能的实现方式中,在获取原始声音信号后,根据目标拾音方向对原始声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号,这样可以根据不同的实际应用场景,灵活的调整目标拾音方向,得到增强处理后的与目标拾音方向对应的增强声音信号,避免了获取到的声音信号中掺杂其他全方向声音信号,提高了用于播放的声音的清晰度,提升了声音信号的音质。
在第二方面的一个可能的实施方式中,获取原始声音信号,包括:
在录音过程中,获取原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:保存所述增强声音信号。
基于该可能的实现方式中,针对录音场景,由于用户后期听取的声音信号为增强处理后的增强声音信号,因此,便于用户后期重复听取音质较高的声音信号,解决了在录音过程中由于采集了除需要录制的声音信号之外的其他声音信号而降低了声音信号可懂度的问题,提升了获取到的声音信号的信噪比,提高了拾取的声音信号的可懂度。
在第二方面的一个可能的实施方式中,获取原始声音信号,包括:
在通话过程中,获取原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:将增强声音信号发送至通话端设备。
基于该可能的实现方式中,通话场景包括语音通话、视频通话、会议通话等,针对通话场景,能够使通话双方听到增强处理后的增强声音信号,解决了由于通话过程中采集了除通话双方之间的声音信号之外的其他音频或噪声而降低了声音信号可懂度的问题,提升了获取到的声音信号的信噪比,提高了拾取的声音信号的可懂度,提高了通话双方的沟通效率。
在第二方面的一个可能的实施方式中,原始声音信号为录制的原始视频中的声音信号,根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:将原始视频中的原始声音信号替换为增强声音信号。
基于该可能的实现方式中,针对录像场景,将原始视频中的原始声音信号替换为增强声音信号后,极大提高了录制的视频中的声音的音质,解决了由于录制的原始视频中采集了掺杂了不同音频信号和环境噪声的声音信号而降低了声音信号可懂度的问题,提升了获取到的声音信号的信噪比,提高了拾取的声音信号的可懂度。
在第二方面的一个可能的实施方式中,获取原始声音信号还包括:接收拾音设备发送的原始声音信号。这样利用不同设备之间的互相协作,不仅为全场景的情况下获取原始声音信号提供了可能,而且有利于延长麦克风的使用寿命。
在第二方面的一个可能的实施方式中,本申请实施例提供的方法还包括:向拾音设备发送目标拾音方向。这样不仅能够减轻电子设备处理器的处理负担,有效保障电子设备正常稳定运行;而且拾音设备可以基于接收到的目标拾音方向来拾取与目标拾音方向对应的声音信号,从而获取清晰度、可懂度以及信噪比更高的声音信号。
在第二方面的一个可能的实施方式中,电子设备包括麦克风阵列,麦克风阵列包括至少一个指向性麦克风,电子设备获取原始声音信号,包括:
根据目标拾音方向,开启指向目标拾音方向的指向性麦克风,关闭未指向目标拾音方向的指向性麦克风;
利用开启的指向目标拾音方向的指向性麦克风采集原始声音信号。
基于该可能的实现方式中,一方面可以节约电子设备的电量,提升用户体验,同时延长智能眼镜的使用寿命,另一方面根据检测到的目标拾音方向开启指向目标拾音方向的麦克风,并关闭其他麦克风,也可以尽可能避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,增强麦克风的拾音效果。在实际应用中,还可以利用各个指向性麦克风呈现的打开或关闭状态进一步实现不同的拾音效果。
在第二方面的一个可能的实施方式中,获取原始声音信号,包括:根据目标拾音方向,开启指向目标拾音方向的指向性麦克风,关闭未指向目标拾音方向的指向性麦克风;
利用开启的指向目标拾音方向的指向性麦克风采集原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号。
基于该可能的实现方式中,电子设备根据目标拾音方向,开启指向目标拾音方向的麦克风,并关闭其他麦克风,可以避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,减少获取到的原始声音信号中音质较强的杂音,增强麦克风的拾音效果,进一步对开启的指向性麦克风获取的声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号。这样可以避免获取到的声音信号中掺杂其他方向的声音信号,提高了增强处理后的声音信号的清晰度及音质,有效提高了最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
在第二方面的一个可能的实施方式中,本申请实施例提供的方法还包括:向音频播放设备发送增强声音信号。这样扩展了增强声音信号播放的器件,使得用于播放的增强声音信号可以适应于不同的使用场景。
在第二方面的一个可能的实施方式中,本申请实施例提供的方法还包括:播放增强声音信号。这样便于直接听取增强后的声音信号。
在第二方面的一个可能的实施方式中,响应于第一操作,显示第一界面之前,本申请实施例提供的方法还包括:
显示录音界面,录音界面上显示有拾音配置按钮;
在录音界面上检测第一操作,第一操作为拾音配置按钮的触发操作。
在第二方面的一个可能的实施方式中,第一操作为录音启动操作,本申请实施例提供的方法还包括:
响应于第一操作,启动录音功能。
在第二方面的一个可能的实施方式中,响应于第一操作,显示第一界面之前,本申请实施例提供的方法还包括:
显示通话界面,通话界面上显示有拾音配置按钮;
在通话界面上检测第一操作,第一操作为拾音配置按钮的触发操作。
在第二方面的一个可能的实施方式中,第一操作为通话接通操作,本申请实施例提供的方法还包括:
响应于第一操作,接通语音通话或者视频通话功能。
在第二方面的一个可能的实施方式中,响应于第一操作,显示第一界面之前,本申请实施例提供的方法还包括:
显示录像界面,录像界面上显示有拾音配置按钮;
在录像界面上检测第一操作,第一操作为拾音配置按钮的触发操作。
在第二方面的一个可能的实施方式中,第一操作为录像启动操作,本申请实施例提供的方法还包括:
响应于第一操作,启动录像功能。
在第二方面的一个可能的实施方式中,响应于第一操作,显示第一界面之前,本申请实施例提供的方法还包括:
显示会议界面,会议界面上显示有拾音配置按钮;
在会议界面上检测第一操作,第一操作为拾音配置按钮的触发操作。
在第二方面的一个可能的实施方式中,第一操作为会议模式启动操作,本申请实施例提供的方法还包括:响应于第一操作,启动会议功能。
响应于第一操作,显示第一界面之前,本申请实施例提供的方法还包括:
显示拾音场景设置界面;
响应于在拾音场景设置界面上检测到的第二操作,打开或者关闭第一界面的显示场景,显示场景包括录音场景、通话场景、录像场景、会议场景中的至少一个场景。
第三方面,本申请提供一种拾音方法,应用于拾音设备,该方法包括:
接收电子设备发送的目标拾音方向;
在目标拾音方向上获取目标声音信号。
基于本申请提供的拾音方法,拾音设备接收到电子设备发送的目标拾音方向后,使得拾音设备在后续拾音过程中可以直接根据目标拾音方向拾取目标声音信号,或者根据目标拾音方向对拾取到的原始声音信号进行信号增强处理,以获取到原始声音信号位于目标拾音方向的目标声音信号,从而有效提高最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
在第三方面的一个可能的实施方式中,在目标拾音方向上获取目标声音信号包括:
采集原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号,增强声音信号为目标声音信号。
基于该可能的实现方式中,在获取原始声音信号后,根据目标拾音方向对原始声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号,这样可以根据不同的实际应用场景,灵活的调整目标拾音方向,得到增强处理后的与目标拾音方向对应的增强声音信号,避免了获取到的声音信号中掺杂其他全方向声音信号,提高了目标声音信号的清晰度,提升了目标声音信号的音质。
在第三方面的一个可能的实施方式中,在目标拾音方向上获取目标声音信号包括:
根据目标拾音方向,开启指向目标拾音方向的麦克风,关闭未指向目标拾音方向的麦克风;
利用开启的指向目标拾音方向的麦克风采集目标声音信号。
基于该可能的实现方式中,根据检测到的目标拾音方向开启指向目标拾音方向的麦克风,并关闭其他麦克风,可以避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,减少获取到的原始声音信号中音质较强的杂音,增强麦克风的拾音效果,此外,还可以有效避免由于无关麦克风的工作而导致功耗较大的问题,延长拾音设备的使用寿命。
在第三方面的一个可能的实施方式中,在目标拾音方向上获取声音信号包括:
根据目标拾音方向,开启指向目标拾音方向的麦克风,关闭未指向目标拾音方向的麦克风;
利用开启的指向目标拾音方向的麦克风采集原始声音信号;
根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号,增强声音信号为目标声音信号。
基于该可能的实现方式中,拾音设备根据目标拾音方向,开启指向目标拾音方向的麦克风,并关闭其他麦克风,可以避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,减少获取到的原始声音信号中音质较强的杂音,增强麦克风的拾音效果,进一步对开启的指向性麦克风获取的声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号。这样可以避免获取到的声音信号中掺杂其他方向的声音信号,提高了增强处理后的声音信号的清晰度及音质,有效提高了最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
在第三方面的一个可能的实施方式中,本申请实施例提供的方法还包括:播放目标声音信号。
在第三方面的一个可能的实施方式中,本申请实施例提供的方法还包括:向音频播放设备发送所述目标声音信号。扩展了用于播放目标声音信号的设备,丰富了实际应用场景。
第四方面,本申请提供一种芯片系统,所述芯片系统包括处理器,所述处理器执行存储器中存储的计算机程序,以实现第二方面或第三方面中任一项所述的方法。
在第四方面的一个可能的实施方式中,所述芯片系统还包括存储器,存储器与处理器通过电路或电线与存储器连接。
第五方面,本申请提供一种电子设备,包括:处理器,所述处理器用于运行存储器中存储的计算机程序,以实现第二方面或第二方面的任一可能的实现方式中的方法。
在第五方面的一个可能的实施方式中,电子设备为如第一方面或第一方面的任一可选方式所述的穿戴设备。
第六方面,本申请提供一种拾音设备,包括:处理器,所述处理器用于运行存储器中存储的计算机程序,以实现第三方面或第三方面的任一可能的实现方式中的方法。
在第六方面的一个可能的实施方式中,拾音设备为如第一方面或第一方面的任一可选方式所述的穿戴设备。
第七方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第二方面或第三方面中任一项所述的方法。
第八方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备或拾音设备上运行时,使得电子设备执行上述第二方面或第三方面中任一所述的方法。
本申请提供的第四方面至第八方面的技术效果可以参见上述第一方面、第二方面或第三方面的各个可选方式的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种智能眼镜的局部结构示意图;
图2为本申请实施例提供的一种耳机的结构示意图;
图3为本申请实施例提供的智能眼镜作为穿戴设备的使用场景的示意图;
图4为本申请实施例提供的8字指向型麦克风对声音信号的灵敏度示意图;
图5为本申请实施例提供的全向麦克风对声音信号的敏感度示意图;
图6为本申请实施例提供的一种可穿戴设备与电子设备构成的系统功能框图;
图7-图18为本申请实施例提供的不同种智能眼镜中麦克风阵列结构形成波束的示意图;
图19为本申请实施例提供的一种实现拾音方法的示意图;
图20-图26为本申请实施例提供的显示第一界面的不同场景的相关示意图;
图27和图28为本申请实施例提供的第一界面的展示示意图;
图29为本申请实施例提供的多种手势的示意图;
图30为本申请实施例提供的一种对声音信号降噪提取过程的示意性流程图;
图31为本申请实施例提供的对声音信号进行空间特征聚类的示意图;
图32和图33为本申请实施例提供的另一种对声音信号降噪提取过程的示意性流程图;
图34为本申请实施例提供的对同一噪声环境中佩戴人声音信号提取效果对比示意图;
图35为本申请实施例提供的一种拾音方法的交互流程示意图;
图36为本申请实施例提供的一种电子设备与拾音设备进行连接的界面示意图;
图37为本申请实施例提供的另一种拾音方法的交互流程示意图;
图38为本申请实施例提供的一种电子设备的结构示意图;
图39为本申请实施例提供的一种电子设备的软件结构示意图。
具体实施方式
下面结合本申请实施例中的附图以及相关实施例,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
在本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
随着科技的不断进步,穿戴设备(例如耳机、智能眼镜、智能手环等)已经成为人们日常生活中不可缺少的一部分。通过在穿戴设备中增加麦克风阵列,以使穿戴设备具备拾音功能。目前,穿戴设备的麦克风阵列中一般包括两颗全向麦克风,这两颗全向麦克风在穿戴设备中的设置位置尽可能与佩戴人的人嘴处在一条直线上,从而基于声音信号叠加的原理获取佩戴人的声音信号,然后基于差分阵列算法(Differential Microphone Array,DMA)来处理获取到的佩戴人的声音信号,以提高穿戴设备拾取佩戴人的声音信号的质量。
示例性的,如图1所示为一种智能眼镜的局部结构示意图,参见图1中,在该智能眼镜的眼镜腿上设置有两颗全向麦克风,这两颗全向麦克风在智能眼镜中的设置位置大致与佩戴该智能眼镜的人的人嘴处于一条直线上,当佩戴人佩戴该智能眼镜后,在佩戴人的人嘴发出声音信号时,可以通过该智能眼镜中的两颗全向麦克风采集声音信号。
又如,如图2所示为一种耳机的结构示意图,参见图2中,在该耳机的耳柄中设置有两颗全向麦克风,这两颗全向麦克风在耳机中的设置位置大概与佩戴该耳机的佩戴人的人嘴处于一条直线上,当佩戴人佩戴耳机后,在佩戴人的人嘴发出声音信号时,可以通过耳机的耳柄中设置的两颗全向麦克风来采集声音信号。
上述示例中,通常利用差分阵列算法(Differential Microphone Array,DMA)进一步对麦克风阵列拾取的声音信号进行处理,得到处理后的声音信号。DMA主要利用空间声压的差异性来对声音信号进行处理,具体地,当拾音设备中设置N颗麦克风时可以获取到N-1阶差分,然后利用N-1阶差分来处理声音信号。当拾音设备的麦克风阵列中包括两颗麦克风时,可以通过DMA获取声音信号的1阶差分波束,也就是说,利用麦克风采集到的声音信号与采集到的噪声音信号做差来提取声音信号。
上述现有技术需要依赖于通过麦克风阵列中的两颗全向麦克风在穿戴设备中的特殊设置方式以及DMA方法来提高穿戴设备拾取佩戴人的声音信号的质量,但是若麦克风阵列中的全向麦克风在穿戴设备中的设置位置未与佩戴人的人嘴处在一条直线上,即存在较大偏差时,则会降低拾取到的声音信号的质量,降低信噪比,影响了用户体验。
而且,若在相对噪杂的拾音环境中使用上述穿戴设备,掺杂了人声和环境噪声的声音信号会同时被穿戴设备中的麦克风阵列采集,利用上述方法对麦克风阵列拾取的声音信号进行处理,无法滤除掉麦克风采集到的声音信号中的噪声音信号,降低了处理后的声音信号的可懂度,影响了拾音质量。
因此,针对穿戴设备中拾取的声音信号的可懂度低,拾音质量较差,信噪比较低的问题,本申请提供一种穿戴设备,在该穿戴设备中设置包括有至少一个指向性麦克风的麦克风阵列,利用麦克风阵列中的至少一个指向性麦克风来拾取声音信号,充分利用指向性麦克风对特定方向的声音信号敏感的特点来采集声音信号,能够从获取声音的源头减少声音信号中掺杂的噪声,有效避免了由于采集了过于复杂的声音信号而降低了声音信号的质量,摆脱麦克风阵列在穿戴设备中的安装束缚,提升了获取到的声音信号的音质,提升信噪比。
本申请实施例提供的一种穿戴设备可以智能眼镜(smart glasses)、增强现实(Augmented Reality,AR)/虚拟现实(virtual Reality,VR)/混合现实(Mixed Reality,MR)设备、智能头盔(smart helmet)、头戴式耳机、助听设备、入耳式耳机、耳塞式耳机、智能手环(smart wristband)、智能手表(smart watch)、计步器(pedometer)、对讲机(two wayradio)、录音笔(recording pen)等具有拾音功能的设备。不难理解的,穿戴设备可以是面向未来技术的其他设备。
该穿戴设备可以适用于多种场景,例如,场景包括但不限于视频通话场景、语音通话场景、专业录音场景、电台/广播/主持场景、直播游戏/直播带货场景、会议场景以及其他能够应用拾音功能的场景中。进一步地,通话场景可以包括室内通话场景、室外通话场景、安静/嘈杂通话场景、骑行/跑步/运动通话场景、车载通话场景、单耳通话场景、双耳通话场景、远程会议通话场景等。
为了更加方便的阐述本申请实施例提供的穿戴设备,作为示例而非限定,下文将以智能眼镜作为可穿戴设备为例来详细阐述本申请的技术方案。
如图3所示为本申请实施例提供的智能眼镜作为穿戴设备的使用场景的示意图,参见图3,智能眼镜可佩戴于用户的眼部,能够实现与电子设备(例如手机)的无线通信功能,在本申请实施例中,该智能眼镜中包括麦克风阵列,麦克风阵列中包括至少一个指向性麦克风。
根据实际应用需求,麦克风阵列中的指向性麦克风的数量可以灵活设置,例如,针对需要采集多个方向声音信号的情况下,可以在穿戴设备中设置多个指向性麦克风。在麦克风阵列中有至少两个指向性麦克风的情况下,可以通过进一步对获取的声音信号作多元化处理,提升麦克风的拾音性能,进而提升穿戴设备的整体性能,提升用户体验。麦克风阵列中指向性麦克风的数量可以根据实际应用需求而设定,本申请对此不作任何限定。
在其中一种可能的实施方式中,麦克风阵列中至少一个指向性麦克风的拾音波束方向互相正交。其中,指向性麦克风的拾音波束方向互相正交是指麦克风阵列中的指向性麦克风对应的拾音方向是两两互相垂直的。
应理解的,为了使得麦克风采集的声音信号尽可能保留较多的声音特征,麦克风阵列中的指向性麦克风的拾音方向可以指向预设的声源位置。例如,智能眼镜上麦克风阵列中的指向性麦克风的拾音方向可以指向佩戴智能眼镜的佩戴人的人嘴方向。或者针对助听设备,助听设备上麦克风阵列中的指向性麦克风的拾音方向可以指向其他方向,用于更好的拾取与佩戴该助听设备进行对话的其他人的声音信号。不同的穿戴设备,预设的声源位置可能不同,本申请对此不作任何限定。
在另一种可能的实施方式中,指向性麦克风可以为8字型麦克风。如图4所示为8字指向型麦克风对声音信号的灵敏度示意图,8字型麦克风也称双指向型麦克风,其主要对同时来自方向相反的两个声音信号敏感。当在穿戴设备的麦克风阵列中使用8字型指向性麦克风时,能够充分提高8字型麦克风的利用率,降低穿戴设备的生产、制造及研发成本,提高穿戴设备的制造速率。
可选的,麦克风阵列中还可以包括全向麦克风。如图5所示为全向麦克风对声音信号的敏感度示意图,全向麦克风对所有角度的声音信号都具有相同的灵敏度参见图5中的加粗线段所示。在本申请实施例中,包含全向麦克风和指向性麦克风的麦克风阵列,可以通过全向麦克风从所有方向均衡的拾取声音,以获取丰富、范围较广的音频信号或噪声,根据不同的实际应用需求,可以利用全向麦克风获取的音频信号或噪声对指向性麦克风采集的音频信号进行降噪、增强处理,以提升指向性麦克风的拾音质量,进一步提升穿戴设备的拾音性能。
基于本实施例,智能眼镜中除了包括麦克风阵列外,如图6所示也可以包括扬声器和处理器;进一步地,扬声器是用于贴近佩戴人左/右耳可以独立进行播放的器件,扬声器可以分别设置在智能眼镜两侧的镜腿中,用于向佩戴人的人耳播放声音。其中,扬声器可以是外放的扬声器,例如,喇叭或者音响等;也可以是贴近人耳播放的扬声器。处理器用于对声音信号进行处理,或者将麦克风阵列采集的声音信号分发至电子设备的处理器,使电子设备的处理器对声音信号进行处理。当然,在实际应用中智能眼镜中还可以包括通信模块和控制接口,通信模块用于实现智能眼镜与其他电子设备的通信,控制接口用于实现对智能眼镜的控制。
不难理解的,电子设备也称主控设备,主控设备与智能眼镜在通信连接成功后,可以实现对智能眼镜的控制。其中,主控设备的处理器可以用于对智能眼镜处理器分发的声音信号进行处理,主控设备的通信模块可以通过智能眼镜的通信模块与智能眼镜实现交互通信。
应理解,智能眼镜和/或主控设备的控制接口可以接收外部输入的控制命令,以通过接收的控制命令实现对智能眼镜和/或主控设备的控制。其中,接收控制命令的方式包括但不限于通过智能眼镜或者主控设备上的物理按键,或者对智能眼镜或者主控设备的触控手势、隔空手势等。例如,对于智能眼镜中音视频的音量调节,可以通过智能眼镜上的物理按键接收音量调节的控制命令,还可以通过主控设备(例如手机)接收的触控手势而接收音量调节的控制命令。
为了增强用户体验,可选地,在可穿戴设备中还设置有姿态行动测量单元。姿态行动测量单元用于追踪佩戴人在佩戴设备后的不同姿态变化情况并向处理器分发追踪数据。在实际应用过程中,用户在佩戴可穿戴设备后,可穿戴设备与用户之间相对位置或者方向会随着用户头部/腕部的活动而发生变化,例如,佩戴人佩戴有智能眼镜,A位于佩戴人的正前方,在双方位置保持不变的情况下,可以将位于其正前方位置的A的声音信号进行增强,增强后的A的声音信号可以正确被采集,但当佩戴人低头或者转头后,智能眼镜中的指向性麦克风获取到的A的声音信号的方向发生变化,这时若还保持增强智能眼镜正前方的声音信号不变,则获取到的声音信号将不再是A的声音信号。因此,为避免上述情况的发生,可以利用可穿戴设备中的姿态行动测量单元获取佩戴人相对于初始化位置信息的变化量,监测佩戴人姿态变化,以随着用户头部/腕部的活动而自适应的调整拾取到的声音信号的方向,实现声音信号的实时追踪。
值得说明的是,在面向未来技术支持的情况下,智能眼镜可能脱离主控设备的控制,通过其自身的多个功能模块实现远程通话、辅听增强以及其他原本需要借助于主控设备控制才能实现的功能,本申请对此不作限定。
下面以麦克风阵列中指向性麦克风的数量分别为1颗、2颗、3颗、4颗、6颗及9颗为例,对不同数量的指向性麦克风在穿戴设备中形成的声音信号波束进行示例性的描述。需要说明的是,以下几种示意图仅是部分指向性麦克风在智能眼镜中形成声音信号波束的情况,根据不同的实际需求,在智能眼镜中设置的指向性麦克风的数量、指向性麦克分的具体类型以及指向性麦克风的具体安装位置可能会发生变化,本申请对此不作任何限定。
需要注意的是,8字型麦克风能够获取的声音信号的波束如下图7-图18中两个相邻的虚线圆所示,全向麦克风能够获取的声音信号的波束如下图7-图18中一个实线圆所示。
为了进一步减轻智能眼镜的重量,减少智能眼镜对佩戴人鼻梁或耳朵的挤压力,在一种可能的实现方式中,参见图7-图9,在智能眼镜中可以设置1颗8字型麦克风。参见图7,该麦克风可以设置在智能眼镜一侧的镜框或者镜腿中,该麦克风能够形成指向佩戴人人嘴方向的声音信号波束,便于该麦克风接收来自佩戴人人嘴方向的声音信号。参见图8,该麦克风也可以设置在智能眼镜镜框的中间位置,中间区域是指智能眼镜镜框的鼻梁和/或鼻托;该麦克风可以形成指向佩戴人人嘴方向的声音信号波束。同样的,参见图9,该麦克风还可以设置在智能眼镜另一侧的镜框或者镜腿中,与图7中麦克风的设置位置对应,形成的声音信号波束的方向也是对应指向人嘴。
参见图10-图12为本申请实施例提供的第二种智能眼镜中麦克风阵列结构形成波束的示意图,如图10-图12所示,该智能眼镜的麦克风阵列中包括2颗指向性麦克风,且2颗指向性麦克风的类型均为8字型麦克风。在一种实施例中,参见图10,2颗8字型麦克风中的1颗麦克风位于智能眼镜镜框的中间位置,形成的声音信号波束方向指向佩戴人的人嘴方向;剩余的1颗麦克风位于智能眼镜一侧的镜框、镜架或者镜腿上,该麦克风是形成指向佩戴人人嘴方向的声音信号波束。在另一种可能的实施方式种,参见图11,2颗8字型麦克风中的1颗麦克风位于智能眼镜镜框的中间位置,形成指向佩戴人人嘴方向的声音信号波束;另一颗麦克风则与图10所示的其中一颗麦克风的设置方向相对应,设置于智能眼镜另一侧的镜框、镜架或者镜腿中,也是形成指向佩戴人人嘴方向的声音信号波束。在其他的实施例中,参见图12,2颗8字型麦克风分别对应设置在智能眼镜两侧的镜框、镜框或者镜腿中,这两颗麦克风在智能眼镜中可以分别形成指向佩戴人人嘴方向的声音信号波束。
参见图13为本申请实施例提供的第三种智能眼镜中麦克风阵列结构形成波束的示意图,如图13所示,该智能眼镜的麦克风阵列中设置有3颗8字型麦克风,其中1颗麦克风设置在智能眼镜镜框的中间位置,形成的声音信号波束方向指向佩戴人的人嘴方向,剩余的2颗麦克风分别设置在智能眼镜两侧的镜框、镜架或者镜腿中,形成声音信号波束方向也对应指向佩戴人的人嘴方向。
可选地,当指向性麦克风的数量为3颗,且这3颗指向性麦克风的类型相同时,这3颗指向性麦克风形成的声音信号波束可以有多种形态。例如,可以在保持中间位置设置的麦克风的位置保持不变的情况下,变换其他两颗麦克风在智能眼镜的镜框或者镜架上的位置。如图14,为另一种在智能眼镜的麦克风阵列中设置3颗8字型麦克风形成波束的示意图,对比图13与图14不难看出,变换2颗麦克风的设置位置后,图14中的3颗麦克风形成的声音信号波束方向与图13中的3颗麦克风形成的声音信号波束方向对称,对实际采集佩戴人的声音信号影响较小。
参见图15为本申请实施例提供的第四种智能眼镜中麦克风阵列结构形成波束的示意图,如图15所示,该智能眼镜的麦克风阵列中可以包括4颗指向性麦克风,其中1颗是全向麦克风,3颗为8字型麦克风。上述4颗麦克风均位于智能眼镜框的中间位置,中间区域包括智能眼镜镜框的鼻梁和/或鼻托,上述3颗8字型麦克风形成的拾音波束方向互相正交,例如,3颗8字型麦克风形成的拾音方向分别为垂直于智能眼镜的镜框、平行于智能眼镜的镜框以及指向佩戴人的人嘴方向。
参见图16为本申请实施例提供的另一种智能眼镜中麦克风阵列结构形成波束的示意图,如图16所示,该智能眼镜中的麦克风阵列中可以包括6颗指向性麦克风,其中2颗为全向麦克风,全向麦克风可以设置于智能眼镜转轴的镜框、镜架或者镜腿上;剩余4颗为8字型麦克风,其中两颗位于智能眼镜框的中间位置,这两颗麦克风分别形成垂直于智能眼镜镜面和平行于智能眼镜镜面的拾音方向,另外两颗分别位于智能眼镜转轴的镜框、镜架或者镜腿上,形成的拾音方向分别指向佩戴智能眼镜的人的人嘴方向。
参见图17为本申请实施例提供的一种智能眼镜中麦克风阵列结构形成波束的示意图,如图17所示,该智能眼镜的麦克风阵列中也包括6颗指向性麦克风,其中2颗是全向麦克风,4颗为8字型麦克风,上述2颗全向麦克风分别位于智能眼镜两侧转轴的镜框、镜架或者镜腿上;上述4颗8字型麦克风中的2颗麦克风位于智能眼镜一侧转轴的镜框、镜架或者镜腿上,紧邻其中1颗全向麦克风,这2颗麦克风形成的拾音方向分别指向佩戴者的人嘴方向和平行于智能眼镜镜框;另外2颗8字型麦克风位于智能眼镜另一端转轴的镜框、镜架或者镜腿上,紧邻另一颗全向麦克风,形成的拾音方向分别对应指向佩戴者的人嘴方向和平行于智能眼镜框方向。
参见图18为本申请实施例提供的一种智能眼镜中麦克风阵列结构形成的声音信号波束的示意图,如图18所示,该智能眼镜的麦克风阵列中可以包括9颗指向性麦克风,其中2颗是全向麦克风,7颗为8字型麦克风;上述2颗全向麦克风分别设置在智能眼镜两侧的镜框、镜架或者眼镜腿上;上述7颗8字型麦克风中的其中1颗麦克风设置在智能眼镜镜框的中间位置,该麦克风形成的声音信号波束方向指向佩戴人的人嘴方向;在智能眼镜的每一侧的镜框或者镜腿上分别设置3颗8字型麦克风,每一侧设置的3颗8字型麦克风形成的声音信号波束互相正交。
值得说明的是,在麦克风阵列中指向性麦克风的数量为两颗或者两颗以上的情况下,实际在智能眼镜中部署多颗指向性麦克风时,多颗类型相同的麦克风的安装位置不受限制。在麦克风阵列中指向性麦克风的数量为一颗的情况下,该麦克风在智能眼镜中的安装位置可以有多种。
应理解,当麦克风阵列中包括一颗全向麦克风时,该全向麦克风位于智能眼镜镜框的鼻梁或鼻托中。当麦克风阵列中包括两颗全向麦克风时,这两颗全向麦克风可以分别位于智能眼镜的两个镜腿中;或者,这两颗全向麦克风分别位于智能眼镜的镜框两侧靠近两个镜腿的位置。当麦克风阵列中包括多颗全向麦克风时,多颗全向麦克风分布在智能眼镜的中间区域以及两侧区域,其中,中间区域包括智能眼镜镜框的鼻梁和/或鼻托;两侧区域包括智能眼睛的两个镜腿和/或智能眼镜的镜框两侧靠近两个镜腿的位置。示例性的,当麦克风阵列中包括3颗全向麦克风时,这3颗全向麦克风中的其中2颗可以分别位于智能眼镜靠近镜腿两侧的镜框中,或者其中2颗麦克风位于智能眼镜靠近镜框两侧的镜腿中,另外1颗麦克风位于智能眼镜镜框的鼻梁或鼻托。
根据全向麦克风的数量进行位置的设置,便于麦克风阵列中的全向麦克风能够尽可能的从多个方向均衡的拾取声音,以获取丰富、范围较广的音频信号或噪声,根据不同的实际应用需求,可以利用全向麦克风获取的音频信号或噪声对指向性麦克风采集的音频信号进行降噪、增强处理,以提升指向性麦克风的拾音质量,进一步提升智能眼镜的拾音性能。
在实际应用过程中,为了节约智能眼镜的电量,提升用户体验,同时延长智能眼镜的使用寿命,当穿戴设备检测到目标拾音方向时,穿戴设备开启麦克风阵列中指向目标拾音方向的麦克风,并关闭麦克风阵列中未指向目标拾音方向的麦克风。
为了能够尽可能避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,增强拾音效果,还可以当智能眼镜检测到麦克风阵列中存在满足预设条件的第一指向性麦克风时,开启第一指向性麦克风,并关闭麦克风阵列中的其他指向性麦克风。预设条件可以为第一指向性麦克风在预设时间段内拾取到的声音信号的信号质量大于其他指向性麦克风。预设条件可以根据不同的实际应用需求而设置,本申请对此不作任何限定。
应理解,声音信号的信号质量参数包括但不限于声音信号的响度及声音信号的信噪比。
还应注意的是,随着技术的不断发展,麦克风的类型越来越多,针对各种不同的应用场景,使用到的指向性麦克风的类型可能不同,本申请对不同应用场景中指向性麦克风的具体类型不作限定。
此外,根据不同的实际应用需求,指向性麦克风还可以设置在其他拾音设备中,例如耳机、智能头盔等具有拾音功能的设备中。本申请对此没有任何限定。
本申请实施例还提供一种拾音方法,可以通过灵活调节拾音方向,以在特定方向上对原始声音信号进行增强。从而提高特定方向上声音信号的可懂度、音质和清晰度。下面结合几种可能的场景对本申请实施例提供的拾音方法进行示例性的说明。
场景一、该拾音方法可以应用于电子设备,由电子设备自主拾音的场景。其中,电子设备也可被称为终端设备或者移动设备,又或者终端。该电子设备为具有拾功能和界面显示的设备,包括但不限于手持设备、车载设备、计算设备或者安装有指向性麦克风的其他设备,例如,电子设备可以包括手机(phone)、个人数字助理(personal digitalassistant)、平板电脑、车载电脑、膝上电脑(laptop computer)、智慧屏、超级移动个人计算机(ultra-mobile personal computer,UMPC)、穿戴设备以及其他具有拾音功能和显示功能的电子设备。
如图19所示为本申请实施例提供的一种拾音方法的流程示意图,参见图19,该拾音方法包括以下步骤:
S2101,响应于第一操作,显示第一界面,第一界面用于配置拾音方向。
在本申请实施例中,第一操作可以是用户在电子设备的显示屏上输入的点击操作、触摸操作、滑动操作;也可以是用户通过在电子设备上的物理按键输入的控制操作;还可以是用户通过电子设备的摄像头或者其他传感器检测到的隔空手势等。
例如,电子设备的设置页面或者桌面上显示有“拾音设置”按钮。示例性的,如图20中(a)所示,电子设备的桌面上显示有“拾音设置”按钮,用户通过点击该按钮后,电子设备的屏幕显示系统直接显示第一界面,以进行默认拾音方向的设置。
或者,用户在点击该按钮后,电子设备也可以显示拾音场景设置界面,用于设置可以直接启动第一界面进行拾音设置的场景。例如,在来电被接通的场景中是否启动拾音设置,或者录音开启的场景中是否启动拾音设置,或者在免提(也可以称为扩音或外放)场景中是否启动拾音设置等。设置完成后,电子设备检测到对应的场景被触发后,电子设备的屏幕显示系统自动显示第一界面,其中,对应场景的触发即为电子设备响应的第一操作。
应理解,如图20中(b)所示,可以设置的拾音设置场景包括但不限于录音场景、通话场景、录像场景以及会议场景,其中通话场景可以是语音通话场景,也可以是视频通话场景,当然,还可以是会议通话场景。
例如,针对录音场景,可以是在电子设备检测到用户点击录音按钮,启动录音时,直接跳转至第一界面。例如,如图21中(a)所示,在通话界面上,用户点击录音功能按钮后,电子设备的屏幕显示系统进入第一界面;或者在当用户点击电子设备上显示的录音功能按钮时,电子设备的屏幕显示系统进入第一界面。
或者,如图21中(b)所示,用户点击电子设备的桌面上显示的录音应用程序对应的录音功能按钮后,显示录音界面,在录音界面中显示有拾音增强按钮,当用户需要对本地录音进行指定方向增强时,用户可以点击拾音增强按钮,以使得电子设备检测到用户点击上述拾音增强按钮后,电子设备的屏幕显示系统跳转第一界面,然后基于录音启动操作启动录音功能,实现对本地录音中声音信号的增强处理。
又例如,如图22所示的通话界面中,当电子设备检测到用户点击的外放(也称扩音或者免提)等按钮后,电子设备的屏幕显示系统进入第一界面。
又例如,参见图23,电子设备在来电(也称通话)后显示如图23中(a)所示的界面,用户可以在电子设备的屏幕显示系统上执行如图23中(b)所示的滑动操作以接通来电,在来电被接通后,电子设备的屏幕显示系统上直接显示第一界面。
又例如,在如图24所示的来电被接通的场景中,用户点击如图24所示的“拾音增强”功能按钮后,电子设备的屏幕显示系统进入第一界面。
在其中一种可能的实施方式中,在如图25所示的录像界面中,用户点击“拾音增强”功能按钮后,电子设备的屏幕显示系统上直接显示第一界面;或者,在用户直接点击电子设备的桌面上显示的录像应用程序对应的录像功能按钮后,电子设备的屏幕显示系统进入第一界面。
在另一种可能的实施方式中,在如图26所示的会议界面中显示有“拾音增强”配置按钮,用户点击该配置按钮后电子设备的屏幕显示系统进入第一界面;或者,在用户直接点击会议功能按钮,启动会议功能后电子设备的屏幕显示系统上直接显示第一界面。
如图27所示为本申请实施例提供的一种第一界面的示意图,第一界面上可以包括用于增强佩戴人声音信号的第一开关按钮2701、辅听增强的手动添加按钮2702(和/或滑动条上的定位按钮2703)、声音信号方向展示图2704以及可以转换不同视角的点击按钮2705等。
其中,第一开关按钮2701用于打开或关闭增强佩戴人的声音信号;辅听增强的手动添加按钮2702(或者滑动条上的定位按钮2703)用于确定增加或者减少待增强的声音信号及对应声音信号的方向信息;声音信号方向展示图2704用于展示模拟的拾音环境,包括佩戴人的头部以及以佩戴人头为中心的拾音环境。不同视角的点击按钮2705可以用于切换声音信号方向展示图2704中佩戴人的不同角度。
应该理解的,根据不同实际应用场景,第一界面中可以增加上述示例中的显示内容,或者减少上述示例中的部分显示内容,本申请对第一界面中展示的内容不作任何限定。
不难理解的,当电子设备为例如智能手机、智能手表、平板电脑等具有显示屏的设备时,该电子设备可以响应于第一操作,在电子设备的显示屏上显示用于配置拾音方向的第一界面。当电子设备是例如增强现实、虚拟现实等以投屏、投影等方式显示图像的设备时,可以响应于隔空手势而显示第一界面。
S2102,响应于在第一界面上检测到的第二操作,确定目标拾音方向。
其中,目标拾音方向用于增强指定方向的原始声音信号。下面结合如图27所示的第一界面,对如何确定目标拾音方向进行介绍。
当目标拾音方向为佩戴人的人声方向时,电子设备可以基于第一界面,响应于用户对第一开关按钮2701的点击或滑动操作,来打开或者关闭增强佩戴人的声音信号。参见图27中第一开关按钮2701所示的状态表示打开增强佩戴人声音信号,图28中第二开关按钮2706所示的状态表示关闭增强佩戴人声音信号,其中,第一开关按钮2701与第二开关按钮2706可以为同一个开关按钮。
当目标拾音方向不是佩戴人的人声方向时,用户可以通过如图27所示的手动添加按钮2702或者滑动条上的定位按钮2703增加目标拾音方向。用户还可以基于声音信号方向展示图2704,通过第一手势切换中佩戴人的角度,然后再通过第二手势增加或者减少待增强的声音信号的方向;或者通过点击按钮2705切换声音信号方向展示图2704中佩戴人的不同角度,再基于声音信号方向展示图2704,通过第二手势增加或者减少待增强的声音信号的方向。
例如,上述第一手势可以是如图29中A所示的旋转手势;第二手势可以是如图29中E所示的长按手势。应理解,根据不同的使用设置,上述第一手势和第二手势可以相同,也可以不同。在保证第一手势和第二手势不同的情况下,第一手势和/或第二手势可以是图29中A-Z1所示的任一种可能的手势,这里不再一一举例。
需要说明的是,除可以通过上述示例确定目标拾音方向外,还可以通过隔空手势或者其他控制命令来确定目标拾音方向,对此本申请不作任何限定。
值得说明的是,目标拾音方向可以包括一个或者一个以上。例如,目标拾音方向可以包括佩戴人的人声方向,和一个通过辅听增强设置的其他方向。
S2103,获取原始声音信号。
电子设备通过内置的麦克风阵列获取到环境中的原始声音信号,其中,麦克风阵列中可以包括至少一个指向性麦克风,也可以包括至少一个指向性麦克风和至少一个全向麦克风,在不同的应用场景下,麦克风阵列中还可以包括至少一个全向麦克风。
应理解,在实际应用中,电子设备可以根据目标拾音方向,开启指向目标拾音方向的指向性麦克风,关闭未指向目标拾音方向的指向性麦克风,利用开启且指向目标拾音方向的指向性麦克风采集原始声音信号,这样不仅可以节约电子设备的电量,提升用户体验,同时延长智能眼镜的使用寿命,而且根据目标拾音方向开启指向目标拾音方向的麦克风,并关闭其他麦克风,也可以尽可能避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,增强麦克风的拾音效果。在实际应用中,还可以利用各个指向性麦克风呈现的打开或关闭状态进一步实现不同类型的拾音效果,以提升电子设备的使用性能。
S2104,根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号。
应理解,上述增强处理后的增强声音信号可以用于播放,也可以用于存储,还可以用于转发至其他设备等。作为示例而非限定,针对拾音场景,增强处理后的增强声音信号可以用于播放,更好的帮助佩戴助听设备的人听取声音信号;针对录音场景,增强处理后的增强声音信号可以用于存储,以便于用户后期重复听取;针对通话场景,增强处理后的增强声音信号可以用于将其发送至通话端设备;针对录像场景,增强处理后的增强声音信号可以用于替换录制的原始视频中的原始声音信号,以便于用户后期查看录制的视频时能够听到增强后的声音信号,提升用户体验;针对会议场景,增强处理后的增强声音信号可以用于将其发送至会议方设备,便于更好的交流与沟通等等。根据不同的实际应用场景,增强处理后的增强声音信号的用途不同,本申请对此不作任何限定。
本申请实施例中,对原始声音信号中位于目标拾音方向上的第一声音信号的增强处理包括对声音强度的提升和/或对声音信号的降噪处理,以提高特定方向上声音信号的可懂度、音质和清晰度。
其中,如图30所示是本申请实施例提供的一种对声音信号降噪提取过程的示意性流程图,该声音信号降噪提取过程是指根据目标拾音方向,对原始声音信号进行降噪提取,得到滤除了较多噪音后的声音信号。参见图30,该降噪过程包括:第一步:基于麦克风阵列中获取原始声音信号。
第二步:根据目标方向,将获取到的声音信号对应转换为导向矢量声音信号。将获取到的声音信号转换为导向矢量声音信号的方法包括但不限于利用波束形成器和广义旁瓣消除器(generalized sidelobe canceller,GSC)对获取的声音信号进行处理,得到以目标方向为引导的导向矢量声音信号,或者利用盲源分离(Blind source separation,BSS)技术,结合目标方向对获取的声音信号进行处理,得到与目标方向对应的导向矢量声音信号。
应理解,该步骤本质上是对指向性麦克风采集的声音信号作预处理,实现多源的不同声音信号的分离,消除目标方向外的噪声,提取到目标声音信号的同时达到抑制噪声的目的。
第三步:对扩散场噪声抑制。其中,扩散场是指声音信号的能量密度均匀,在各个传播方向上作无规分布的声场。扩散场噪声即来自声场全空间各个方向的声音信号,例如,空调制冷或制热发出的声音信号等。
在本申请实施例中,可以根据来自不同通道的声音信号的能量关系对导向矢量声音信号(或者指向性麦克风采集的声音信号)进行扩散场噪声的抑制。
以指向性麦克风阵列(AVS)为例,可以根据声音信号到达同一个AVS中的各个通道的能量关系来确定声音信号是直达声还是扩散场噪声,具体地,当声场空间属于理想的扩散场时,全向通道与x、y、z三个轴线通道采集的声音信号满足以下公式(1):
Xw 2=Xx 2+Xy 2+Xz 2 (1)
其中,理想的扩散场是指采集来自声场空间各个方向的声音信号的能量相同,但声音信号互不相关的声场。上述公式(1)中,Xw表示全通道采集的声音信号,Xx、Xy、Xz分别表示x、y、z三个轴线通道采集的声音信号。
根据上述公式(1)不难看出,当声场空间中仅存在位于三个轴线通道中其中一个通道的点声源时,以x轴线通道为例,则全通道采集的声音信号与x轴线通道采集的声音信号满足以下公式(2):
Xw=Xx (2)
应理解,当声场空间中仅存在位于三个轴线通道中的y轴线、z轴线或者其他三维空间任一方向上的点声源均满足与上述公式(2)类似的条件。这样,可以根据各通道间采集声音信号的能量关系来判断每个时频点(由时间和频率共同确定的点)AVS采集到的声音信号是点声源还是扩散场噪声,即以下公式(3):
示例性的,以电子设备为上述图15所示的智能眼镜为例,该智能眼镜的麦克风阵列中包括4颗共点指向性麦克风,4颗麦克风中1颗为全向麦克风,3颗为8字型麦克风,3颗8字型麦克风形成的声音信号波束方向互相正交,在3颗8字型麦克风的单个声音信号的接收强度与全向麦克风接收该声音信号的强度相等的情况下,则全向麦克风接收声音信号的强度Xw1与8字型麦克风接收声音信号的强度Xx1满足以下公式(4):
Xw1 2=3Xx1 2 (4)
通过上述公式(4)即可确定声音信号是否属于点声源。
在实际对扩散场噪声抑制的过程中,可以进一步对上述公式(3)做映射转换,以对扩散场噪声进行滤波抑制,其中,映射转换的方法包括但不限于高斯分布或者均匀分布。
第四步:作非线性波束处理,以实现声音信号的定向采集,抑制除目标方向之外的其他方向的声音信号的干扰。
作非线性波束处理可以采用声音信号的方位估计或者空间聚类估计等方法。其中,采用方位估计的方法本质上是通过AVS采集的声强度矢量来计算每个时频点的到达方向来估计声音信号的方向,以滤除不满足目标方向的声音信号。
具体地,方位估计方法中,每个AVS采集的声强度矢量可以用以下公式(5)表示。以下公式(5)中,(f,n)表示频点为f、帧数为n的时频点,Xw表示全通道采集的声音信号,Xx、Xy、Xz分别表示x、y、z三个轴线通道采集的声音信号。
对应至该时频点的方位则通过以下公式(6)确定。
上述公式(6)中,R(*)表示取实部。根据上述公式(6)计算得到该时频点的方位后,将该时频点的方位与目标方向进行比较,然后利用高斯函数将比较结果映射成对应滤波器的系数,以此来抑制除目标方向之外的其他方向的声音信号。
作为示例而非限定的,假设根据上述公式(6)确定该时频点的方位与目标方向之间的相差0°,则可以认为该时频点的方位与目标方向一致,也就是说该时频点对应的声音信号为目标声音信号(或者说该时频点对应的声音信号是目标声音信号的概率较大),从而可以将对应映射至滤波器的系数确定为1,以使该时频点对应的声音信号可以保留至滤波器中参与滤波;反之,例如,根据上述公式(6)确定该时频点的方位与目标方向之间的相差180°,则可以认为该时频点的方位与目标方向不一致,或者说该时频点对应的声音信号为噪声的可能性较大,这样可以将该时频点对应映射至滤波器的系数确定为0,以滤除该声音信号。在该示例中,时频点的方位与目标方向的比较结果以及对应映射至滤波器的系数等参数可以根据实际应用情况进行设置,本申请对此不作限定。
而采用空间聚类估计方法是利用声音信号的方位信息,将拾音环境模拟为一个球面(即如图31所示的拾音环境模拟球),通过对声音信号进行空间特征计算(或者声音信号距离球面的距离等),滤除不是目标方向上的声音信号,从而实现对目标方向上声音信号的提取。
应该理解,如图31所示为本申请实施例提供的对声音信号进行空间特征聚类的示意图,参见图31,用拾音环境模拟球来模拟拾音环境,该拾音环境模拟球的球面上的点是对应映射在球面的若干声音信号。通过将若干声音信号对应映射至拾音环境模拟球的球面上,对不在球面上扇形面内的声音信号进行抑制,可以提取特定方向的声音信号。示例性的,根据图31所示的声音信号可得,经过空间特征聚类后的声音信号集中在X=0且Y=1的方向上,可以对不在该方向上的声音信号进行抑制,从而提取到在X=0且Y=1的方向上的声音信号。
当电子设备中包括至少一个指向性麦克风时,可以根据电子设备中指向性麦克风的数量对输出的声音信号作进一步的处理。若电子设备的麦克风阵列中包括一个指向性麦克风时,则可以根据如图30所示的降噪过程对声音信号的导向矢量转换、扩散场噪声抑制、非线性波束处理后提取到目标声音信号。若为了增加声音信号的识别准确度,进一步丰富电子设备的功能,在电子设备中可以设置两个或者两个以上的指向性麦克风,这种情况下,可以参见图32所示的降噪过程,对经导向矢量转换、扩散场噪声抑制以及非线性波束处理后的声音信号进行相关性处理,相关性处理是对得到的多个声音信号之间的相似性进行比较,从而从多个声音信号中确定待输出的声音信号。
为了进一步滤除掉经导向矢量转换、扩散场噪声抑制以及非线性波束处理后的声音信号中的噪声,进一步降低噪声对目标方向的声音信号的影响,在一种可能的实施方式中,利用后置滤波器对声音信号作进一步处理。这样通过对麦克风阵列中的指向性麦克风获取声音信号进行声音信号的导向矢量转换、扩散场噪声抑制、非线性波束以及后置滤波器处理后可以提取到较为准确的目标声音信号。
经过上述几个步骤即可对指向性麦克风阵列获取的声音信号进行处理,提取到抑制了扩散场噪声以及其他非目标方向上噪声的声音信号。可选地,在对指向性麦克风阵列获取的声音信号进行处理的过程中,还可以采用语音活性检测(Voice ActivityDetection,VAD)或者语音存在概率(Speech Presence Probability,SPP)等方法从采集到的声音信号中识别和消除处于静音状态的声音信号,以便加快声音信号的拾取速度,提升拾音速率。
值得说明的是,为了避免滤噪处理对声音信号的影响,提升拾音的准确性,在本申请实施例中,在第一步基于麦克风阵列中的指向性麦克风获取到声音信号后,利用VAD或SPP对获取到的声音信号进行处理,直接从指向性麦克风获取到的声音信号消除处于静音状态的声音信号,加速声音信号的提取。在另一种可能的实施方式中,也可以如图33所示在对声音信号处理完成后,再利用VAD或SPP对处理完成的声音信号进行处理,以最终输出提取完成的声音信号。当然,利用VAD或SPP以消除处于静音状态的声音信号的步骤,可以根据不同的声音信号提取方法或者不同的适应场景而灵活调整该步骤,本申请对此不作任何限定。
当然,在另外一种可能的实施方式中,还可以采用波束形成器和广义旁瓣消除器、盲源分离技术、扩散场噪声抑制、非线性波束、语音活性检测算法/语音存在概率算法中的至少一种方法对指向性麦克风阵列获取的原始声音信号进行降噪处理,得到降噪处理后的声音信号。本申请对此不作任何限定。
如图34所示为本申请实施例提供的利用两种方法对同一噪声环境中佩戴人声音信号提取效果对比示意图,其中,参见图34中(1)图所示为利用现有方法对噪声环境中佩戴人声音信号提取效果图,参见图34中(2)图所示为利用本申请提供的降噪方法对噪声环境中佩戴人声音信号提取效果图。需要说明的是,上述声音信号提取效果图中横坐标表示时间(未在图中示出),纵坐标表示频率,图中鲜亮的颜色表示在该时频点上的声音信号能量的强弱。颜色越鲜亮,图中背景的颜色越暗,则说明该时频点上提取的声音越好,也即对声音信号的降噪效果越明显。通过对比图34中(1)图和(2)图,不难发现通过对同一噪声环境下的佩戴人的声音信号进行提取,图34中(2)图所示的佩戴人的声音信号的谐波更明显,这也正说明了利用本申请提供的降噪方法能够有效的将佩戴人的声音信号和噪声进行分离,噪声抑制效果更好。
上述实施例提供的降噪方法中,首先以目标方向为引导,将麦克风阵列获取的声音信号转换为导向矢量信号,实现了从指向性麦克风采集的多通道的声音信号中分离与目标方向接近的声音信号,为声音信号的后续处理奠定了基础。然后对声音信号进行扩散场噪声的抑制,滤除了声音信号中来自全空间各个方向的扩散场噪声,使抑制了扩散场噪声后的声音信号更清晰。接着通过非线性滤波对声音信号作进一步处理,抑制了声音信号中除目标方向外的其他方向的声音信号,从而实现了声音信号的定向采集。然后对指向性麦克风获取的声音信号进行VAD/SPP处理,能够加快对声音信号降噪的处理速度,加之对处理后的声音信号进行后置滤波器以及相关性处理进一步滤除了处理后的声音信号中的残余噪声,保证了最终得到的声音信号的音质,进一步提高了拾音信噪比。
在一种可能的实现方式中,基于目标拾音方向,从原始有声音信号中增强与目标拾音方向对应的声音信号以后,得到增强后的声音信号,还可以对增强处理的声音信号进行空间渲染处理,空间渲染处理后的声音信号中有声音信号的方位信息,使用户能够通过双耳清晰的分辨声音的方位。其中,实现空间渲染效果的方法包括但不限于双耳时间差(Interaural Time Difference,ITD)或者双耳能级差(Interaural Level Difference,ILD)方法。
可选地,得到增强声音信号后,可以通过电子设备播放上述增强的声音,例如,通过电子设备内置的扬声器播放增强的声音;或者电子设备将增强后的声音信号发送给播放设备进行播放,例如,可以通过音响播放增强的声音。又或者通过上述电子设备或播放设备存储上述增强的声音。
场景二,该方法可以应用于电子设备和拾音设备,由拾音设备采集原始声音信号,由电子设备进行目标拾音方向的设置。其中拾音设备可以是话筒、对讲机等等,还可以是上述实施例涉及的穿戴设备。电子设备可以是手机、个人数字助理、平板电脑、车载电脑、膝上电脑、智慧屏、超级移动个人计算机、穿戴设备以及其他能够与拾音设备通信的设备。在该场景中,该电子设备可以通过无线通信技术(例如蓝牙技术、红外射频技术、2.4G无线技术、超声波)等方式与拾音设备进行通信。例如,智能眼镜为拾音设备,手机为电子设备,智能眼镜可以通过无线通信技术与手机进行通信,在智能眼镜与手机连接成功后,智能眼镜和手机可以执行本申请实施例提供的拾音方法。
如图35所示为本申请实施例提供的另一种拾音方法的流程示意图,参见图35,该拾音方法包括以下步骤:
S1,电子设备响应于第一操作,显示第一界面,第一界面用于配置拾音方向。
在本申请实施例中,第一操作可以为用户在电子设备的显示屏上输入的点击操作、触摸操作、滑动操作;也可以是用户通过在电子设备上的物理按键输入的控制操作;还可以是用户通过电子设备的摄像头或者其他传感器检测到的隔空手势。
例如,参见图36所显示的界面,当电子设备连接到拾音设备时,电子设备可以自动显示第一界面,其中第一操作为连接操作或者配置操作。或者,在检测到用户点击拾音设置按钮时,显示第一界面。
可选的,针对第一操作其他示例性实施例,以及第一界面的相关示例说明,可以参考上述场景一中的相关描述。在此不再赘述。
S2,响应于在第一界面上检测到的第二操作,确定目标拾音方向。
应理解,目标拾音方向用于增强指定方向的原始声音信号。具体可以参见上述场景一中S2101-S2102的描述,此处不再赘述。
需要说明的是,在该场景中,对原始声音信号的增强处理可以由电子设备处理,也可以由拾音设备处理。
示例性的,如图35所示,在上述S1-S2之后,由电子设备对声音信号作增强处理的过程包括:
S3,电子设备接收拾音设备发送的原始声音信号。
S4,电子设备根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号。
具体可以参见上述场景一中S2103-S2104的描述,此处不再赘述。
得到增强的声音信号后,在另一种可选的实施方式中,可以通过电子设备播放上述增强的声音,例如,通过电子设备内置的扬声器播放增强的声音;或者电子设备将增强后的声音信号发送给播放设备进行播放,例如,可以通过音响播放增强的声音。又或者通过上述电子设备或播放设备存储上述增强的声音。
可选地,还可以由拾音设备对声音信号作增强处理,参见基于图35,如图37在上述步骤S1和S2之后,拾音方法还可以包括:
S5,电子设备向拾音设备发送目标拾音方向。
S6,拾音设备在目标拾音方向上获取目标声音信号。
应理解,获取的目标声音信号可以是根据目标拾音方向获取的增强处理后的声音信号;也可以是根据开启并指向目标拾音方向的麦克风拾取的声音信号;还可以是利用根据开启并指向目标拾音方向的麦克风拾取,且经增强处理后的声音信号。
拾音设备接收到电子设备发送的目标拾音方向后,使得拾音设备在后续拾音过程中可以直接根据目标拾音方向拾取目标声音信号,或者根据目标拾音方向对拾取到的原始声音信号进行信号增强处理,以获取到原始声音信号位于目标拾音方向的目标声音信号,从而有效提高最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
在一种可能的实施方式中,步骤S6拾音设备在目标拾音方向上获取目标声音信号,可以包括:
S61,拾音设备采集原始声音信号。
S62,根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号,增强声音信号为目标声音信号。
基于该可能的实现方式,在获取原始声音信号后,根据目标拾音方向对原始声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号,这样可以根据不同的实际应用场景,灵活的调整目标拾音方向,得到增强处理后的与目标拾音方向对应的增强声音信号,避免了获取到的声音信号中掺杂其他全方向声音信号,提高了目标声音信号的清晰度,提升了目标声音信号的音质。
在另一种可能的实施方式中,步骤S6拾音设备在目标拾音方向上获取目标声音信号,也可以包括:
S63,根据目标拾音方向,开启指向目标拾音方向的麦克风,关闭未指向目标拾音方向的麦克风。
S64,利用开启的指向目标拾音方向的麦克风采集目标声音信号。
该可能的实施方式,一方面可以节约电子设备的电量,提升用户体验,同时延长智能眼镜的使用寿命,另一方面根据检测到的目标拾音方向开启指向目标拾音方向的麦克风,并关闭其他麦克风,也可以尽可能避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,增强麦克风的拾音效果。在实际应用中,还可以利用各个指向性麦克风呈现的打开或关闭状态进一步实现不同的拾音效果。
可选地,步骤S6拾音设备在目标拾音方向上获取目标声音信号,还可以包括:
S65,根据目标拾音方向,开启指向目标拾音方向的麦克风,关闭未指向目标拾音方向的麦克风。
S66,利用开启的指向目标拾音方向的麦克风采集原始声音信号。
S67,根据目标拾音方向,对原始声音信号进行增强处理,得到原始声音信号中位于目标拾音方向上的第一声音信号的增强声音信号,增强声音信号为目标声音信号。
基于该可能的实现方式中,拾音设备根据目标拾音方向,开启指向目标拾音方向的麦克风,并关闭其他麦克风,可以避免麦克风拾取到除目标拾音方向之外的其他方向上的噪声,减少获取到的原始声音信号中音质较强的杂音,增强麦克风的拾音效果,进一步对开启的指向性麦克风获取的声音信号做增强处理,以得到与目标拾音方向对应的增强处理后的声音信号。这样可以避免获取到的声音信号中掺杂其他方向的声音信号,提高了增强处理后的声音信号的清晰度及音质,有效提高了最终拾取到的声音信号的信噪比,提高声音信号的可懂度,提升用户体验。
具体可以参见上述场景一中电子设备获取声音信号的实施例描述,此处不再赘述。
S7,拾音设备向电子设备发送目标声音信号。
可选地,可以通过电子设备播放上述目标声音信号,例如,通过电子设备内置的扬声器播放目标声音;或者电子设备将目标声音信号发送给播放设备进行播放,例如,通过音响播放目标声音。又或者通过上述电子设备或播放设备存储上述目标声音信号。
应理解,根据实际应用场景,拾音设备还可以是上述电子设备中的设备。当然,拾音设备或者电子设备还可以是面向未来技术的其他设备。本申请实施例对拾音设备及电子设备的具体类型不作任何限制。
下文将描述本申请提供的装置实施例。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
如图38为本申请提供的一种设备100的结构示意图,该设备100包括上述实施例中的电子设备以及拾音设备。参见图38,设备100可以包括处理器110,外部存储器接口120,内部存储器131,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identificationmodule,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对设备100的具体限定。在本申请另一些实施例中,设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
作为举例,当设备100为手机或平板电脑时,可以包括图示中的全部部件,也可以仅包括图示中的部分部件。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I1C总线接口通信,实现设备100的触摸功能。
I1S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I1S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I1S接口向无线通信模块160传递音频信号。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。
在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号。I2S接口和PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在与并行通信之间转换。
在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为设备100充电,也可以用于设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对设备100的结构限定。在本申请另一些实施例中,设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器131,外部存储器接口120,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。
在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在设备100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。例如本申请实施例中的APP的图标、文件夹、文件夹名称等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystaldisplay,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantumdot light emitting diodes,QLED)等。在一些实施例中,设备100可以包括1个或N个显示屏194,N为大于1的正整数。
设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。镜头的焦段可以用于表示摄像头的取景范围,镜头的焦段越小,表示镜头的取景范围越大。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
在本申请中,设备100可以包括2个或2个以上焦段的摄像头193。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。设备100可以支持一种或多种视频编解码器。这样,设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG1,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
在本申请实施例中,NPU或其他处理器可以用于对设备100存储的视频中的图像进行分析处理等操作。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器131可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器131的指令,从而执行设备100的各种功能应用以及数据处理。内部存储器131可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)。存储数据区可存储设备100使用过程中所创建的数据(比如音频数据,电话本等)。
此外,内部存储器131可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。
音频模块170用于将数字音频信号转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。设备100可以通过扬声器170A收听音乐,或收听免提通话,例如扬声器可以播放本申请实施例提供的比对分析结果。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。设备100可以设置至少一个麦克风170C。在另一些实施例中,设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,设备100根据压力传感器180A检测触摸操作强度。设备100也可以根据压力传感器180A的检测信号计算触摸的位置。
在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当设备100是翻盖机时,设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测设备100在各个方向上(一般为三轴)加速度的大小。当设备100静止时可检测出重力的大小及方向。还可以用于识别设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。设备100通过发光二极管向外发射红外光。设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定设备100附近有物体。当检测到不充分的反射光时,设备100可以确定设备100附近没有物体。设备100可以利用接近光传感器180G检测用户手持设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,设备100对电池142加热,以避免低温导致设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。
在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。设备100可以接收按键输入,产生与设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和设备100的接触和分离。设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在设备100中,不能和设备100分离。
参见图39,为本申请实施例的设备100的软件结构示意图。设备100中的操作系统可以是安卓(Android)系统,微软窗口系统(Windows),苹果移动操作系统(iOS)或者鸿蒙系统(Harmony OS)等。在此,以设备100的操作系统为鸿蒙系统为例进行说明。
在一些实施例中,可将鸿蒙系统分为四层,包括内核层、系统服务层、框架层以及应用层,层与层之间通过软件接口通信。
如图39所示,内核层包括内核抽象层(Kernel Abstract Layer,KAL)和驱动子系统。KAL下包括多个内核,如Linux系统的内核Linux Kernel、轻量级物联网系统内核LiteOS等。驱动子系统则可以包括硬件驱动框架(Hardware Driver Foundation,HDF)。硬件驱动框架能够提供统一外设访问能力和驱动开发、管理框架。多内核的内核层可以根据系统的需求选择相应的内核进行处理。
系统服务层是鸿蒙系统的核心能力集合,系统服务层通过框架层对应用程序提供服务。该层可包括系统基本能力子系统集、基础软件服务子系统集、增强软件服务子系统集以及硬件服务子系统集。
系统基本能力子系统集为分布式应用在鸿蒙系统的设备上的运行、调度、迁移等操作提供了基础能力。可包括分布式软总线、分布式数据管理、分布式任务调度、方舟多语言运行时、公共基础库、多模输入、图形、安全、人工智能(Artificial Intelligence,AI)、用户程序框架等子系统。其中,方舟多语言运行时提供了C或C++或JavaScript(JS)多语言运行时和基础的系统类库,也可以为使用方舟编译器静态化的Java程序(即应用程序或框架层中使用Java语言开发的部分)提供运行时。
基础软件服务子系统集为鸿蒙系统提供公共的、通用的软件服务。可包括事件通知、电话、多媒体、面向X设计(Design For X,DFX)、MSDP&DV等子系统。
增强软件服务子系统集为鸿蒙系统提供针对不同设备的、差异化的能力增强型软件服务。可包括智慧屏专有业务、穿戴专有业务、物联网(Internet of Things,IoT)专有业务子系统组成。
硬件服务子系统集为鸿蒙系统提供硬件服务。可包括位置服务、生物特征识别、穿戴专有硬件服务、IoT专有硬件服务等子系统。
框架层为鸿蒙系统应用开发提供了Java、C、C++、JS等多语言的用户程序框架和能力(Ability)框架,两种用户界面(User Interface,UI)框架(包括适用于Java语言的JavaUI框架、适用于JS语言的JS UI框架),以及各种软硬件服务对外开放的多语言框架应用程序接口(Application Programming Interface,API)。根据系统的组件化裁剪程度,鸿蒙系统设备支持的API也会有所不同。
应用层包括系统应用和第三方应用(或称为扩展应用)。系统应用可包括桌面、控制栏、设置、电话等设备默认安装的应用程序。扩展应用可以是由设备的制造商开发设计的、非必要的应用,如设备管家、换机迁移、便签、天气等应用程序。而第三方非系统应用则可以是由其他厂商开发,但是可以在鸿蒙系统中运行应用程序,如游戏、导航、社交或购物等应用程序。
提供后台运行任务的能力以及统一的数据访问抽象。PA主要为FA提供支持,例如作为后台服务提供计算能力,或作为数据仓库提供数据访问能力。基于FA或PA开发的应用,能够实现特定的业务功能,支持跨设备调度与分发,为用户提供一致、高效的应用体验。
多个运行鸿蒙系统的设备之间可以通过分布式软总线、分布式设备虚拟化、分布式数据管理和分布式任务调度实现硬件互助和资源共享。
基于上述各个实施例提供的拾音方法,本申请实施例还提供以下内容:
本实施例提供了一种计算机程序产品,该程序产品包括程序,当该程序被电子设备和/或拾音设备运行时,使得电子设备和/或拾音设备上述各实施例中示出的拾音方法。
本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各个实施例中示出的拾音方法。
本申请实施例提供一种芯片系统,该芯片系统包括存储器和处理器,该处理器执行存储器中存储的计算机程序,以实现控制上述电子设备执行上述各个实施例中示出的拾音方法。
应理解,本申请实施例中提及的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到大屏设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (29)

1.一种穿戴设备,其特征在于,所述穿戴设备包括麦克风阵列,所述麦克风阵列中包括至少一个指向性麦克风;
所述至少一个指向性麦克风的拾音波束方向互相正交。
2.根据权利要求1所述的穿戴设备,其特征在于,所述麦克风阵列中还包括至少一个全向麦克风。
3.根据权利要求1或2所述的穿戴设备,其特征在于,所述穿戴设备被配置为:当所述穿戴设备检测到目标拾音方向时,所述穿戴设备开启所述麦克风阵列中指向所述目标拾音方向的麦克风,并关闭所述麦克风阵列中未指向所述目标拾音方向的麦克风。
4.根据权利要求1或2所述的穿戴设备,其特征在于,所述穿戴设备被配置为:当检测到所述麦克风阵列中存在满足预设条件的第一指向性麦克风时,开启所述第一指向性麦克风,并关闭其他所述指向性麦克风;所述预设条件为所述第一指向性麦克风在预设时间段内拾取到的声音信号的信号质量大于其他所述指向性麦克风。
5.根据权利要求1-4任一项所述的穿戴设备,其特征在于,所述穿戴设备为智能眼镜。
6.根据权利要求5所述的穿戴设备,其特征在于,当所述麦克风阵列中包括一个全向麦克风时,所述全向麦克风位于所述智能眼镜镜框的鼻梁或鼻托中。
7.根据权利要求5所述的穿戴设备,其特征在于,当所述麦克风阵列中包括两个全向麦克风时,所述两个全向麦克风分别位于所述智能眼镜的两个镜腿上;或者,所述两个全向麦克风分别位于所述智能眼镜的镜框两侧靠近所述两个镜腿的位置。
8.根据权利要求5所述的穿戴设备,其特征在于,当所述麦克风阵列中包括多个全向麦克风时,所述多个全向麦克风分布在所述智能眼镜的中间区域以及两侧区域,所述中间区域包括所述智能眼镜镜框的鼻梁和/或鼻托;所述两侧区域包括所述智能眼睛的两个镜腿和/或所述智能眼镜的镜框两侧靠近所述两个镜腿的位置。
9.根据权利要求1-8任一项所述的穿戴设备,其特征在于,所述指向性麦克风为8字型麦克风。
10.一种拾音方法,其特征在于,应用于电子设备,所述方法包括:
响应于第一操作,显示第一界面,所述第一界面用于配置拾音方向;
响应于在所述第一界面上检测到的第二操作,确定目标拾音方向。
11.根据权利要求10所述的拾音方法,其特征在于,所述方法还包括:
获取原始声音信号;
根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号。
12.根据权利要求11所述的拾音方法,其特征在于,所述获取所述原始声音信号,包括:
在录音过程中,获取原始声音信号;
所述根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:
保存所述增强声音信号。
13.根据权利要求11所述的拾音方法,其特征在于,所述获取所述原始声音信号,包括:
在通话过程中,获取原始声音信号;
所述根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:
将所述增强声音信号发送至通话端设备。
14.根据权利要求11所述的拾音方法,其特征在于,所述原始声音信号为录制的原始视频中的声音信号,所述根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号之后,所述方法还包括:
将所述原始视频中的所述原始声音信号替换为所述增强声音信号。
15.根据权利要求11-14任一项所述的拾音方法,其特征在于,所述获取所述原始声音信号,包括:
接收拾音设备发送的所述原始声音信号。
16.根据权利要求10-15任一项所述的拾音方法,其特征在于,所述方法还包括:向拾音设备发送所述目标拾音方向。
17.根据权利要求11-14任一项所述的拾音方法,其特征在于,所述电子设备包括麦克风阵列,所述麦克风阵列包括至少一个指向性麦克风,所述电子设备获取所述原始声音信号,包括:
根据所述目标拾音方向,开启指向所述目标拾音方向的所述指向性麦克风,关闭未指向所述目标拾音方向的所述指向性麦克风;
利用开启的指向所述目标拾音方向的所述指向性麦克风采集所述原始声音信号。
18.根据权利要求10所述的拾音方法,其特征在于,所述电子设备包括麦克风阵列,所述麦克风阵列包括至少一个指向性麦克风,所述方法还包括:
根据所述目标拾音方向,开启指向所述目标拾音方向的所述指向性麦克风,关闭未指向所述目标拾音方向的所述指向性麦克风;
利用开启的指向所述目标拾音方向的所述指向性麦克风采集原始声音信号。
19.根据权利要求10-18任一项所述的拾音方法,其特征在于,所述响应于第一操作,显示第一界面之前,所述方法还包括:
显示拾音场景设置界面;
响应于在所述拾音场景设置界面上检测到的第二操作,打开或者关闭所述第一界面的显示场景,所述显示场景包括录音场景、通话场景、录像场景、会议场景中的至少一个场景。
20.一种拾音方法,其特征在于,应用于拾音设备,所述方法包括:
接收电子设备发送的目标拾音方向;
在所述目标拾音方向上获取目标声音信号。
21.根据权利要求20所述的方法,其特征在于,所述在所述目标拾音方向上获取目标声音信号包括:
采集原始声音信号;
根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号,所述增强声音信号为所述目标声音信号。
22.根据权利要求20所述的方法,其特征在于,所述在所述目标拾音方向上获取目标声音信号,包括:
根据所述目标拾音方向,开启指向所述目标拾音方向的麦克风,关闭未指向所述目标拾音方向的麦克风;
利用开启的指向所述目标拾音方向的麦克风采集所述目标声音信号。
23.根据权利要求20所述的方法,其特征在于,所述在所述目标拾音方向上获取声音信号包括:
根据所述目标拾音方向,开启指向所述目标拾音方向的麦克风,关闭未指向所述目标拾音方向的麦克风;
利用开启的指向所述目标拾音方向的麦克风采集原始声音信号;
根据所述目标拾音方向,对所述原始声音信号进行增强处理,得到所述原始声音信号中位于所述目标拾音方向上的第一声音信号的增强声音信号,所述增强声音信号为所述目标声音信号。
24.根据权利要求20-23任一项所述的方法,其特征在于,所述方法还包括:播放所述目标声音信号。
25.根据权利要求20-24任一项所述的方法,其特征在于,所述方法还包括:向音频播放设备发送所述目标声音信号。
26.一种芯片系统,其特征在于,所述芯片系统包括处理器,所述处理器执行存储器中存储的计算机程序,以实现如权利要求10至25任一项所述的方法。
27.一种设备,其特征在于,被配置为执行如权利要求10至19中任一项所述的电子设备所执行的方法;或者,被配置为执行如权利要求20至25中任一项所述的拾音设备所执行的方法。
28.根据权利要求27所述的设备,其特征在于,所述设备为如权利要求1至9任一项所述的穿戴设备。
29.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机设备上运行时,使得所述计算机设备执行如权利要求10至25中任一项所述的方法。
CN202210393694.4A 2022-04-14 2022-04-14 穿戴设备、拾音方法及装置 Pending CN116962937A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210393694.4A CN116962937A (zh) 2022-04-14 2022-04-14 穿戴设备、拾音方法及装置
PCT/CN2023/087315 WO2023197997A1 (zh) 2022-04-14 2023-04-10 穿戴设备、拾音方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210393694.4A CN116962937A (zh) 2022-04-14 2022-04-14 穿戴设备、拾音方法及装置

Publications (1)

Publication Number Publication Date
CN116962937A true CN116962937A (zh) 2023-10-27

Family

ID=88328975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210393694.4A Pending CN116962937A (zh) 2022-04-14 2022-04-14 穿戴设备、拾音方法及装置

Country Status (2)

Country Link
CN (1) CN116962937A (zh)
WO (1) WO2023197997A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105072540A (zh) * 2015-09-01 2015-11-18 青岛小微声学科技有限公司 一种立体声拾音装置及立体声拾音方法
US10015588B1 (en) * 2016-12-20 2018-07-03 Verizon Patent And Licensing Inc. Beamforming optimization for receiving audio signals
CN108419168A (zh) * 2018-01-19 2018-08-17 广东小天才科技有限公司 拾音设备的指向性拾音方法、装置、拾音设备及存储介质
CN113496708B (zh) * 2020-04-08 2024-03-26 华为技术有限公司 拾音方法、装置和电子设备
CN111883160B (zh) * 2020-08-07 2024-04-16 上海茂声智能科技有限公司 一种定向麦克风阵列拾音降噪方法及装置
CN113301476B (zh) * 2021-03-31 2023-11-14 阿里巴巴(中国)有限公司 拾音设备及麦克风阵列结构

Also Published As

Publication number Publication date
WO2023197997A1 (zh) 2023-10-19

Similar Documents

Publication Publication Date Title
WO2021213120A1 (zh) 投屏方法、装置和电子设备
WO2020078237A1 (zh) 音频处理方法和电子设备
WO2020019356A1 (zh) 一种终端切换摄像头的方法及终端
WO2021052214A1 (zh) 一种手势交互方法、装置及终端设备
WO2020029306A1 (zh) 一种图像拍摄方法及电子设备
WO2020056684A1 (zh) 通过转发模式连接的多tws耳机实现自动翻译的方法及装置
CN113393856B (zh) 拾音方法、装置和电子设备
CN113542580B (zh) 去除眼镜光斑的方法、装置及电子设备
CN112087649B (zh) 一种设备搜寻方法以及电子设备
CN112700377A (zh) 图像泛光处理方法及装置、存储介质
CN114257920B (zh) 一种音频播放方法、系统和电子设备
WO2022206825A1 (zh) 一种调节音量的方法、系统及电子设备
WO2022022319A1 (zh) 一种图像处理方法、电子设备、图像处理系统及芯片系统
CN111930335A (zh) 声音调节方法及装置、计算机可读介质及终端设备
CN114339429A (zh) 音视频播放控制方法、电子设备和存储介质
CN114120950B (zh) 一种人声屏蔽方法和电子设备
CN109285563B (zh) 在线翻译过程中的语音数据处理方法及装置
CN115641867B (zh) 语音处理方法和终端设备
CN113129916A (zh) 一种音频采集方法、系统及相关装置
CN113467747B (zh) 音量调节方法、电子设备及存储介质
CN114449393B (zh) 一种声音增强方法、耳机控制方法、装置及耳机
WO2023197997A1 (zh) 穿戴设备、拾音方法及装置
CN115393676A (zh) 手势控制优化方法、装置、终端和存储介质
CN114120987A (zh) 一种语音唤醒方法、电子设备及芯片系统
CN113436635A (zh) 分布式麦克风阵列的自校准方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination