CN112992169B - 语音信号的采集方法、装置、电子设备以及存储介质 - Google Patents

语音信号的采集方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112992169B
CN112992169B CN201911275035.5A CN201911275035A CN112992169B CN 112992169 B CN112992169 B CN 112992169B CN 201911275035 A CN201911275035 A CN 201911275035A CN 112992169 B CN112992169 B CN 112992169B
Authority
CN
China
Prior art keywords
signal
voice signal
voice
directional microphone
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911275035.5A
Other languages
English (en)
Other versions
CN112992169A (zh
Inventor
尹明婕
缪海波
陶凯
张时
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911275035.5A priority Critical patent/CN112992169B/zh
Priority to PCT/CN2020/125590 priority patent/WO2021114953A1/zh
Publication of CN112992169A publication Critical patent/CN112992169A/zh
Application granted granted Critical
Publication of CN112992169B publication Critical patent/CN112992169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请适用于信号处理技术领域,提供了一种语音信号的采集方法、装置、电子设备以及存储介质,该方法包括:通过电子设备的指向性麦克风获取第一语音信号;根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;输出所述校准语音信号。本申请提供的技术方案在通过指向性麦克风采集得到原始语音信号后,即第一语音信号,基于信号补偿曲线对第一语音信号进行信号补偿,得到校准语音信号,以提高高频段的语音信号的采集效果,降低声染的影响,并输出调整后的校准语音信号,能够在确保采集的语音信号中降低环境噪声基础上,提高语音采集的质量,从而增强了麦克风的信号输出效果。

Description

语音信号的采集方法、装置、电子设备以及存储介质
技术领域
本申请属于信号处理技术领域,尤其涉及语音信号的采集方法、装置、电子设备以及存储介质。
背景技术
随着便携式终端消费类电子产品的发展,大量的微型电容式麦克风得到了广泛的应用。现有技术中,为了拾取某一方向的声音信号,可以采用具有指向性的麦克风进行语音采集,以提高语音信号的采集质量。然而现有的语音信号的采集技术,虽然指向性麦克风能够在特定方向具有较好的语音信号的采集能力,但由于指向性麦克风存在高音频段的采集效果较弱,并且存在声染以及频响曲线不够平滑等缺陷,在采用指向性麦克风时,依然无法得到质量较高的语音信号,从而影响了麦克风的信号输出效果。
发明内容
本申请实施例提供了一种语音信号的采集方法、装置、可穿戴设备以及存储介质,可以提高语音采集的质量,增强麦克风的信号输出效果。
第一方面,本申请实施例提供了一种语音信号的采集方法,包括:
通过电子设备的指向性麦克风获取第一语音信号;
根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;
输出所述校准语音信号。
示例性的,根据智能耳机在使用状态下与用户嘴部之间的相互位置关系,确定指向性麦克风的拾音方向。
在第一方面的一种可能的实现方式中,所述通过电子设备的指向性麦克风获取第一语音信号,包括:
在获取所述第一语音信号时,通过所述电子设备的全向性麦克风采集所述第一语音信号对应的第二语音信号;
根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线。
在第一方面的一种可能的实现方式中,在所述电子设备采集语音信号时,所述指向性麦克风与人声声源之间的第一距离小于所述全向性麦克风与所述人声声源之间的第二距离。
在第一方面的一种可能的实现方式中,所述根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线,包括:
将所述第一语音信号转换为第一频域信号,以及将所述第二语音信号转换为第二频域信号;
根据所述第一频域信号提取人声语音频段;
过滤所述第二频域信号中除所述人声语音频段外的噪声频段,得到滤波信号;
通过所述滤波信号生成所述信号补偿曲线。
在第一方面的一种可能的实现方式中,所述根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号,包括:
生成所述第一语音信号的原始频响曲线;
以所述信号补偿曲线为基准,对所述原始频响曲线内各个频率值进行拟合,得到频响校准曲线;
基于所述频响基准曲线生成所述校准语音信号。
示例性地,根据信号补偿曲线,确定各个频率值之间的增益比例,基于上述增益比例对原始频响曲线进行拟合,以得到频响校准曲线。
在第一方面的一种可能的实现方式中,在所述通过电子设备的指向性麦克风获取第一语音信号之前,还包括:
获取当前的环境声强;
若所述环境声强小于预设的声强阈值,则通过全向性麦克风获取第三语音信号,输出所述第三语音信号;
若所述环境声强大于或等于预设的声强阈值,则执行所述通过电子设备的指向性麦克风获取第一语音信号。
在第一方面的一种可能的实现方式中,所述通过电子设备的指向性麦克风获取第一语音信号,包括:
通过所述电子设备的传动部件控制所述指向性麦克风在多个预设角度采集训练语音信号;
根据各个所述训练语音信号中人声语音频段的平均幅值,确定目标角度;
控制所述传动部件将所述指向性麦克风调整至所述目标角度,并在所述目标角度下获取所述第一语音信号。
第二方面,本申请实施例提供了一种语音信号的采集装置,包括:
第一语音信号获取单元,用于通过电子设备的指向性麦克风获取第一语音信号;
语音信号补偿单元,用于根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;
校准语音信号输出单元,用于输出所述校准语音信号。
第三方面,本申请实施例提供了一种电子设备,存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述语音信号的采集方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述语音信号的采集方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述语音信号的采集方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例在通过指向性麦克风采集得到原始语音信号后,即第一语音信号,基于信号补偿曲线对第一语音信号进行信号补偿,得到校准语音信号,以提高高频段的语音信号的采集效果,降低声染的影响,并输出调整后的校准语音信号,能够在确保采集的语音信号中降低环境噪声基础上,提高语音采集的质量,从而增强了麦克风的信号输出效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是与本申请实施例提供的智能耳机的部分结构的框图;
图2是本申请第一实施例提供的一种语音信号的采集方法的实现流程图;
图3是本申请一实施例提供的指向性麦克风的拾音区域;
图4是本申请第一实施例提供的智能耳机的使用状态下的拾音示意图;
图5是本申请第二实施例提供的一种语音信号的采集方法S201的具体实现流程图;
图6是本申请一实施例提供的现有智能耳机的结构示意图;
图7是本申请一实施例提供的智能耳机的结构实体图;
图8是本申请第三实施例提供的一种语音信号的采集方法S2012的具体实现流程图;
图9是本申请第四实施例提供的一种语音信号的采集方法S202的具体实现流程图;
图10是本申请第五实施例提供的一种语音信号的采集方法的具体实现流程图;
图11是本申请第六实施例提供的一种语音信号的采集方法S201的具体实现流程图;
图12是本申请一实施例提供的一种语音信号的采集设备的结构框图;
图13是本申请另一实施例提供的一种电子设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供的语音信号的采集方法可以应用于电子设备。该电子设备可以是任意具有语音采集功能的设备,包括但不限于具有语音采集功能的手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等,还可以应用于数据库、服务器以及可以通过语音控制的系统,本申请实施例对电子设备的具体类型不作任何限制。本申请提供的语音信号的采集方法具体可以以应用程序或软件的形式存储于电子设备,电子设备通过执行该应用程序或软件,实现本申请提供的语音信号的采集方法。
作为示例而非限定,所述电子设备还可以为可穿戴设备,该可穿戴设备可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如有线耳机、无线耳机、带有话筒功能的耳机、眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备,通过附着与用户身上,采集用户的语音信号。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,如智能耳机或智能话筒等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类能够采集用户语音信号的智能手环、智能首饰等。
以所述电子设备为智能耳机为例。图1示出的是与本申请实施例提供的智能耳机的部分结构的框图。参考图1,智能耳机包括:近场通信模块110、存储器120、输入单元130、传感器140、音频电路150、处理器160以及电源170等部件。本领域技术人员可以理解,图1中示出的智能耳机结构并不构成对智能耳机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对智能耳机的各个构成部件进行具体的介绍:
智能耳机可以通过近场通信模块110可以接收与关联的用户终端建立通信连接,例如与用户的手机建立通信,通过近场通信模块110接收用户手机发送的音频信号,并通过音频电路150中的扬声器151对音频信号进行播放,以及可以通过近场通信模块110将采集到的语音信号发送给关联的用户终端,举例性地,用户在使用用户终端进行语音通话时,可以通过智能耳机采集语音信号,此时,智能耳机可以通过近场通信模块110与用户终端建立实时通信链路,并通过音频电路150中的传声器152采集用户的语音信号,并通过实时通信链路将语音信号反馈给用户终端,并发送给通信对端。举例性地,该近场通信模块110可以为蓝牙通信模块、低功耗蓝牙通信模块又或者WiFi通信模块等。
存储器120可用于存储软件程序以及模块,处理器160通过运行存储在存储器120的软件程序以及模块,从而执行智能耳机的各种功能应用以及数据处理,例如将接收到的语音信号以及预配置的信号补偿曲线等存储于存储器120内。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、声音采集功能等)等;存储数据区可存储根据智能耳机的使用所创建的数据(比如音频数据等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元130可用于接收输入的数字或字符信息,以及产生与智能耳机100的用户设置以及功能控制有关的键信号输入。具体地,输入单元130可包括控制按键131以及其他输入设备132。举例性地,控制按键131,可以为称为接触式按键,在用户触摸对应区域时,即可生成与该位置相对应的键信号输入,无需用户进行按压,也可以达到智能耳机外表面一体成型的目的,该接触式按键可收集用户在其上或附近的触摸操作(比如用户使用手指或附件在控制按键131上或在控制按键131附近的操作),并根据预先设定的程式驱动相应的连接装置。具体地,用户可以通过输入单元130生成用于控制终端语音信号的采集指令,并通过近场通信模块110将语音信号发送给用户终端。
智能耳机100还可包括至少一种传感器140,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来判断是否存在触控操作,接近传感器可在智能耳机的两个挂耳部件之间的距离大于预设的距离阈值时,自动生成声音播放暂停指令,或者语音信号采集的暂停指令。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能耳机姿态的应用、振动识别相关功能(敲击)等;至于智能耳机还可配置的红外线传感器等其他传感器,在此不再赘述。
音频电路150、扬声器151,传声器152可提供用户与智能耳机之间的音频接口。音频电路150可将接收到的音频数据转换后的电信号,传输到扬声器151,由扬声器151转换为声音信号输出;另一方面,传声器152将收集的声音信号转换为电信号,由音频电路150接收后转换为音频数据,再将音频数据输出处理器160处理后,经近场通信模块110以发送给比如用户终端,或者将音频数据输出至存储器120以便进一步处理。
处理器160是智能耳机的控制中心,利用各种接口和线路连接整个智能耳机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行智能耳机的各种功能和处理数据,从而对智能耳机进行整体监控。可选的,处理器160可包括一个或多个处理单元;优选的,处理器160可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器160中。
智能耳机100还包括给各个部件供电的电源170(比如电池),优选的,电源可以通过电源管理系统与处理器160逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
作为示例而非限定,该语音信号的采集装置可以为一智能麦克风。该智能麦克风可以通过本申请提供的实施例提供的语音信号的采集方法对获取到的语音信号进行处理,并将处理后的语音信号执行后续的操作,例如通过扬声器进行播放,或者将采集到的语音信息存储至存储器内进行保存。
作为示例性而非限定,该语音信号的采集装置可以为一沉浸式VR头套。该VR头套可以通过内置的指向性麦克风采集用户的语音信号,可以通过内置的扬声器模块播放该语音信号,并对采集后的语音信号进行信号解析,转换为字符数据,并根据字符数据调整VR头套内显示单元的输出内容。
在本申请实施例中,流程的执行主体为电子设备。作为示例而非限定,该电子设备具体可以为一智能耳机,特别地,该智能耳机为真无线(True Wireless Stereo,TWS)耳机。图2示出了本申请第一实施例提供的语音信号的采集方法的实现流程图,详述如下:
在S201中,通过电子设备的指向性麦克风获取第一语音信号。
在本实施例中,智能耳机内可以配置有一指向性麦克风,该指向性麦克风可以有效获取预设方向上的声音信号,即该指向性麦克风可以向预设的拾音方向进行延伸,具体的拾音范围以拾音方向为基准进行延伸的类心型区域。当所需采集的目标信号处于拾音范围的心型延伸区域方向上,采集的声音信号的信号质量最优,而在拾音方向的反方向,则采集到的声音信号的信号质量较差。图3示出了本申请提供的一指向性麦克风的拾音区域。参见图3所示,该指向性麦克风的拾音方向为0°对应的方向。即在拾音方向上的语音信号具有较好的采集指令;而该指向性麦克风的拾音方向的反方向即为180°对应的方向,即在180°的方向性采集的语音信号的采集效果较差。其中,图3内存在多个圆环,每个圆环代表该采集灵敏度,中心原点的采集灵敏度为-30分贝(db),即在拾音方向上,声音信号的幅度只需大于30db,即可激活指向性麦克风并记录对应的声音信号。而在指向性麦克风的拾音方向的反方向,即180°在较大的声音幅度值下,例如-2db下,仍然无法进行语音信号的记录。由此可见,随着声音信号与指向性麦克风的拾音方向之间的角度逐渐增大,其信号的采集质量会依次降低,当两者之间的角度为180°时,即两者的传播方向相反时,其信号的采集指令最差。
在一种可能的实现方式中,开发人员在设计智能耳机内指向性麦克风的安装位置时,可以根据智能耳机在使用状态下与用户嘴部之间的相互位置关系,确定指向性麦克风的拾音方向,保证拾音方向与用户的发声方向保持一致,从而能够提高获取用户语音信号时的信号采集质量,以便提升录音效果。图4示出了本申请一实施例提供的智能耳机的使用状态下的拾音示意图。参见图4所示,智能耳机在处于使用状态时,其所在平面与用户嘴部所在平面相互平行,用户发声方向垂直于用户嘴部所在平面,因此,在设计智能耳机的指向性麦克风的拾音方向时,也可以保持其拾音方向垂直于使用状态下所对应的平面,从而保证了拾音方向与用户嘴部的声音方向一致,能够更清楚地采集用户的人声信号。
在一种可能的实现方式中,智能耳机可以配置有信号采集触发阈值,以及采集结束判断阈值。智能耳机内置的指向性麦克风会检测当前场景下的声音信号的声音振幅,若检测到该声音振幅大于商户的采集触发阈值,则会开始记录当前环境的声音信号,从而生成第一语音信号;在记录的过程中,若检测到某一时间段内第一语音信号的声音振幅均小于上述的采集结束判断阈值,则可以停止采集当前环境的声音信号。需要说明的是,信号采集触发阈值的数值大于上述的采集结束判断阈值。由于用户在开始录音时,往往声音较大,因此可以适当提高信号采集触发阈值的数值,以减少误采集的情况发生;而在录音过程中,由于人说话过程中存在弱音、中顿等情况,部分时候声音幅值较小,但并不代表用户说话已中断,因此可以适当降低采集结束判断阈值,从而能够保证连续话语均录制到同一语音信号内,从而提高了语音信号内容的连续性。
在一种可能的实现方式中,智能耳机可以配置有采集触发条件,在智能耳机与用户终端相连的使用状态,获取该用户终端当前使用的应用列表。若任一应用列表中包含预设的声音采集应用,例如视频通话应用、语音通话应用等存在录音相关的应用程序,则可以识别当前满足预设的采集触发条件,并向智能耳机发送一个语音采集指令,以通过智能耳机获取第一语音信号。
在本实施例中,智能耳机在满足预设的采集条件时,可以通过指向性麦克风采集当前场景下的第一语音信号。可选地,在获取得到第一语音信号后,可以通过预设的滤波器对语音信号进行噪声过滤,特别地,该滤波器为高频滤波器,以过滤高频段的噪声信号。由于指向性麦克风的低频敏感度低,低频噪声难被接收到,即相当于指向性麦克风在采集声音信号时已经进行了低切,天然的降低频噪声的采集能力。基于此,为了进一步抑制高频噪声,可以在信号采集后串联一个高频滤波器,以对高频段的噪声信号进行过滤。
在S202中,根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号。
在本实施例中,智能耳机在获取得到第一语音信号后,可以通过预设的信号补偿曲线对第一语音信号进行信号补偿。由于指向性麦克风在非轴向入射方向上以及频响曲线不够平滑的不够友好问题,会导致第一语音信号在高频段存在采集质量较低的情况,在语音信号的波形上反映下来即为频响在中高频能量会较低。基于此,智能耳机可以在采集到第一语音信号后,通过信号补偿曲线对指向性麦克风的采集缺陷进行信号补偿,从而得到补偿后的校准语音信号,从而能够优化指向性麦克风的信号采集效果。
在一种可能的实现方式中,配置信号补偿曲线的方式可以为:智能耳机在出厂时,可以通过指向性麦克风获取在多个不同的角度上多个训练语音的训练波形。基于多个训练波形,确定在高频段对应的补偿系数,从而可以生成信号补偿曲线。特别地,若指向性麦克风在不同的声音采集角度上对应的采集效果差异较大,在该情况下,可以根据在各个角度下对应的训练波形,分别为不同的声音采集角度配置对应的信号补偿曲线。在该情况下,智能耳机在采集到第一语音信号时,可以通过读取运动传感器反馈的参数,确定智能耳机的当前姿态,并基于该姿态与正常使用状态下的偏差角度,估算出用户人声与之拾音方向之间的夹角,并基于该夹角确定对应的信号补偿曲线,通过信号补偿曲线对第一语音信号进行信号补偿。
在一种可能的实现方式中,智能耳机可以与用户终端建立通信连接,在智能耳机通过指向性麦克风采集语音信号时,可以通过用户终端内置的麦克风模块同步获取参考语音信号,通过参考语音信号获取在低频段、中频段以及高频段之间的幅值比例,并基于所述幅值比例生成信号补偿曲线。在该情况下,智能耳机在接收到用户终端反馈的参考语音信号时,可以检测该参考语音信号的平均幅值,若该参考语音信号的平均幅值小于预设的参考阈值,则识别该参考语音信号为无效语音,通过内置的信号补偿曲线对第一语音信号进行信号补偿。由于在使用智能耳机时,用户终端可以放在口袋或书包等位置,此时信号采集效果较差,即便通过用户终端采集得到参考语音信号,也无法对第一语音信号在高频段具有较好的校准作用,在该情况下,则可以通过预设的信号补偿曲线对第一语音信号进行信号补偿。
在S203中,输出所述校准语音信号。
在本实施例中,智能耳机在对第一语音信号进行信号补偿并得到校准语音信号后,可以输出该校准语音信号,具体校准语音信号的输出方式可以根据采集操作的触发方式决定。举例性地,若用户终端在执行视频通话操作,并通过智能耳机采集用户在通话过程中的语音信号,则智能耳机在获取到校准语音信号后,可以通过近场通信模块向用户终端发送校准语音信号,以通过用户终端将校准语音信号发送给通话对端,以提供视频通话过程中的语音信号;若用户通过语音信号来对智能耳机或用户终端进行语音控制,则智能耳机在获取得到语音信号后,可以对该校准语音信号进行解析,将校准语音信号转换为字符数据,基于字符数据内包含的关键词,确定校准语音信号关联的控制指令,基于控制指令对智能耳机或用户终端进行控制。
在一种可能的实现方式中,智能耳机可以用于响应录音请求,智能耳机在生成校准语音信号后,可以将语音信号存储于本地的存储器内,或者通过通信模块,例如近场通信模块或者射频通信模块发送给用户终端或上传至云端服务器,通过其他终端来对校准语音信号进行保存。
在一种可能的实现方式中,智能耳机可以连接有扬声装置,智能耳机通过有线链路或无线通信链路将校准语音信号发送给扬声装置,通过扬声装置输出校准语音信号,从而能够提高语音信号的播放效果,减少噪声的影响,并且使得语音信号更加接近用户原始声音。
以上可以看出,本申请实施例提供的一种语音信号的采集方法在通过指向性麦克风采集得到原始语音信号后,即第一语音信号,基于信号补偿曲线对第一语音信号进行信号补偿,得到校准语音信号,以提高高频段的语音信号的采集效果,降低声染的影响,并输出调整后的校准语音信号,能够在确保采集的语音信号中降低环境噪声基础上,提高语音采集的质量,从而增强了麦克风的信号输出效果。
图5示出了本申请第二实施例提供的一种语音信号的采集方法S201的具体实现流程图。参见图5,相对于图2所述实施例,本实施例提供的一种语音信号的采集方法中S201包括:S2011~S2012,具体详述如下:
在S2011中,在获取所述第一语音信号时,通过所述电子设备的全向性麦克风采集所述第一语音信号对应的第二语音信号。
在本实施例中,智能耳机配置有两个麦克风模块,分别为全向性麦克以及指向性麦克风,上述两个麦克风模块共同构成智能耳机的麦克风阵列。智能耳机在采集语音信号时,可以同时开启全向性麦克风以及指向性麦克风,通过指向性麦克风采集第一语音信号的同时,也会通过全向性麦克风采集第二语音信号,即第一语音信号的起始录音时刻与第二语音信号的起始录音时刻相同,两个麦克风同时采集当前环境下的语音信号,只是通过不同的麦克风模块采集得到。其中,第二语音信号主要作为参考信号,对第一语音信号进行调整。优选地,该智能耳机的左侧耳机部件以及右侧耳机部件均可以配置一个指向性麦克风以及一个全向性麦克风。
由于全向性麦克风拾取的第二语音信号包含的环境噪声远大于指向性麦克风拾取到的第一语音信号的环境噪声,即第二语音信号的信噪比远低于第一语音信号的信噪比,因此在输出语音信号时,可以对第一语音信号作为基准进行输出,从而提高输出语音信号的信噪比。但是指向性麦克由于声音信号通过非拾音方向进行采集时以及本身的频响曲线不够平滑的先天不够友好问题,会导致中高频信号会有损失,从而第一语音信号的中高频能量会比全向性麦克风输出的第二语音信号的中高频能量的保真能力差。因此可以同时调用全向性麦克风采集第二语音信号,以弥补指向性麦克风在中高频段的采集缺陷,从而提高了采集效率。
在一种可能的实现方式中,由于智能耳机存在左侧耳机挂件以及右侧耳机挂件,通过两侧耳机挂件共同输出音频以提供立体声。因此,在使用的过程中,用户会同时佩戴左侧耳机挂件以及右侧耳机挂件。在该情况下,可以将指向性麦克风安装于其中一侧耳机挂件上,而全向性麦克风则安装于另一侧耳机挂件上,从而能够同时安装两个麦克风的同时,减少智能耳机的体积,特别对于TWS耳机,其便携性直接影响用户的使用体验,因此,通过将指向性麦克风以及全向性麦克风部署于耳机的两侧,可以提高耳机的空间利用率。例如,当指向性麦克风安装于左侧耳机挂件时,全向性麦克风可以安装于右侧耳机挂件;反之,当指向性麦克风安装于右侧耳机挂件时,全向性麦克风可以安装于右侧耳机挂件。
进一步地,作为本申请的另一实施例,在所述电子设备采集语音信号时,所述指向性麦克风与人声声源之间的第一距离小于所述全向性麦克风与所述人声声源之间的第二距离。由于指向性麦克风采集的第一语音信号作为基准信号,而全向性麦克风采集的第二语音信号作为参考信号。因此,为了提高基准信号的人声采集质量,可以将指向性麦克风设置于靠近用户嘴部的位置,而相对地,全向性麦克风可以设置于较为远离用户嘴部的位置。
示例性地,图6示出了本实施例提供的一现有智能耳机的结构示意图。参见图6所示,该智能耳机具体为一真无线耳机,该真无线耳机上配置有两个麦克风模块,且两个麦克风模块均为全向性麦克风模块,分别为全向性麦克风1以及全向性麦克风2。TWS耳机相比于有线耳机而言,在用户使用的角度上而言,能够有效地挣脱线材束缚,能够提高用户的佩戴时的使用体验。而现有的智能设备技术,耳机除了为用户提供音频输出服务外,往往需要同时承担音频采集服务,但由于TWS耳机在使用状态下,需要挂在用户耳部上进行拾音,且不存在其他拾音部件,从而导致相比于有线耳机而言,用户无法直接将耳机上的麦克对准嘴部执行拾音,且TWS耳机佩戴位置与用户的嘴部距离较远,使得TWS耳机上的拾音质量远不如近距离拾音的有线耳机。且如图所示,现有的TWS耳机上往往配置的是两个全向性麦克风,而由于全向性麦克风可感受所有方向上的声压变化,以相等的灵敏度接收来自各方向的声音,其拾音特性为一球形,指向性麦克风的拾音范围的二维平面图如图所示为360°圆形,因此全向性麦克在使用中除了获取用户在特定方向发出的人声信号外,还会接收到其他所有方向的干扰信号,且干扰信号与人声信号均以相等灵敏度的方式拾取进来,从而降低了人声信号的信噪比低,拾音质量较差。另一方面,语音信号的高频成分(大于其频段在4k以上)辐射方向具有较强的方向性,即与用户嘴部的朝向一致,全向性麦克风在使用状态下需要悬挂于耳部,从而导致其在拾音过程中会有高频信号的损失,音质损伤严重,且用户使用TWS耳机时环境变化多样,即环境噪声类型复杂,进一步降低了TWS耳机的语音采集效果。由此可见,现有的TWS耳机无法较好兼顾使用便捷性以及保证获取得到高品质采集语音信号。
示例性地,图7示出了本实施例提供的一智能耳机的结构实体图。参见图7所示,该智能耳机具体为一真无线耳机,该真无线耳机上配置有两个麦克风模块,分别为一个全向性麦克风以及一个指向性麦克风。与图6提供的现有智能耳机相比,将耳机底部的麦克风由全向性麦克风替换为指向性麦克风。其中,指向性麦克风的拾音范围为一类心型区域;而全向性麦克风的拾音范围为一球形区域,如图7所示。由于智能耳机在使用状态下,相对于上端部而言,下端部与用户嘴部的距离更为接近,因此为了提高人声信号的拾音效果,需要使得指向性麦克风与用户嘴部的第一距离小于全向性麦克风与用户嘴部的第二距离,因此,将现有的智能耳机中下端部的全向性麦克风替换为指向性麦克风。优选地,在设计指向性麦克风的拾音方向时,可以根据耳机在使用状态下,指向性麦克风的安装位置与嘴部之间的相对位置方向,确定指向性麦克风的适应方向。具体地,可以指向性麦克风的安装位置为起点,用户嘴部为终点,生成一个方向向量,并根据预设的补偿角度以及所述方向向量,确定指向性麦克风的拾音方向。
在一种可能的实现方式中,该指向性麦克风的麦克风口开孔朝下,从而可以有效地实现物理防风,减少了环境气流对收音造成的影响。由于智能耳机在使用状态下处于直立状态,在该状态下气流会冲击智能耳机的四周,若将麦克风口开孔在圆柱体的任一侧面,均会受到气流影响而拾取到气流震动过程中的气流噪声,从而降低了人声信号的信噪比,因此,可以将麦克风口的开口朝向嘲下,从而提高了人声信号的信噪比。需要说明的是,麦克风口的开口朝向与指向性麦克风的拾音方向不同,麦克风口,即麦克风的导声孔具体指物理上的收音位置,而指向性麦克风的拾音方向具体是在拾音效果而言,其心型拾音方位的突出部所在的方向。
在S2012中,根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线。
在本实施例中,智能耳机在获取得到通过全向性麦克风采集的第二语音信号后,可以将第二语音信号作为参考信号,并根据第一语音信号以及第二语音信号生成信号补偿曲线,从而保证了信号补偿曲线与当前采集得到的第一语音信号相匹配,实现了信号补偿曲线实时生成以及动态调整,提高了信号补偿曲线的准确性。
在一种可能的实现方式中,生成信号补偿曲线的方式可以为:智能耳机可以根据第二语音信号中各个频段的频响幅值关系,拟合为对应的实时频响函数。并根据第一语音信号中各个频段与上述实时频响函数之间的偏差值,得到在各个频段对应的调整比例,根据所有频段的调整比例生成上述的信号补偿曲线。
在一种可能的实现方式中,生成信号补偿曲线的方式可以为:智能耳机内置有一基准补偿曲线以及神经学习模型,在每一次采集得到第一语音信号以及第二语音信号后,通过降维池化卷积的方式,生成第一语音信号对应的第一池化矩阵以及第二语音信号的第二池化矩阵,并提取上述两个池化矩阵对应的频响特征值,根据两个频响特征值之间的差值生成调整参量,将调整参量导入到上述的神经学习模型,对基准补偿曲线进行参数学习调整,将调整后的基准补偿曲线作为上述的信号补偿曲线,从而能够实现动态学习调整的目的,提高了信号补偿曲线的准确性。
在本申请实施例中,通过全向性麦克风同时采集与第一语音信号对应的第二语音信号,将第二语音信号作为参考信号生成信号补偿曲线,从而能够实时生成信号补偿曲线,提高了信号补偿曲线的准确性,优化指向性麦克风的拾音效果。
图8示出了本申请第三实施例提供的一种语音信号的采集方法S2012的具体实现流程图。参见图8,相对于图5所述实施例,本实施例提供的一种语音信号的采集方法中S2012包括:S801~S804,具体详述如下:
进一步地,所述根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线,包括:
在S801中,将所述第一语音信号转换为第一频域信号,以及将所述第二语音信号转换为第二频域信号。
在本实施例中,第一语音信号和第二语音信号具体为时域信号,因此可以通过傅里叶变换算法,将第一语音信号以及第二语音信号从时域信号转换为频域信号,从而可以得到与第一语音信号对应的第一频域信号以及与第二语音信号对应的第二频响曲线。其中,上述频响曲线具体为在频率与增益之间的对应关系。
在S802中,根据所述第一频域信号提取人声语音频段。
在本实施例中,由于指向性麦克风在采集人声信号时具有较好的采集效果,并且能够抑制多个方向的环境噪声,人声信号的信噪比较高,因此通过对第一语音信号对应的第一频域信号进行人声频谱的识别。智能耳机可以确定该第一频域信号内截取出人声范围的信号段,并根据信号段内各个频率值对应的增益,识别出人声频率,将所有识别得到的人声频率构成人声语音频段。
在一种可能的实现方式中,智能耳机可以设置有一有效增益阈值。智能耳机会判断在人体发声频段内,即上述截取的信号段中各个频率值的增益是否大于有效增益阈值,若是,则识别该频率值为人声频率;反之,若信号段内任一频率值的增益小于或等于有效增益阈值,则识别本次采集的人声信号中在该频率值不存在有效信息,识别为噪声频率。
在S803中,过滤所述第二频域信号中除所述人声语音频段外的噪声频段,得到滤波信号。
在本实施例中,智能耳机以第一频域信号为基准,确定本次采集的语音信号内包含的人声语音频段,但由于指向性麦克风在中高频段的增益有缺失,因此需要通过全向性麦克风进行增益补偿。而全向性麦克风在对于所有方向的采集灵敏度一致,因此在各个频段内均会获取到噪声,因此难以通过第二语音信号识别出人声频段,因此可以通过第一语音信号提取出人声语音频段,从而弥补第二语音信号中人声识别准确率低的缺陷。
在本实施例中,智能耳机通过第一频响信号确定人声语音频段后,可以在第二频响信号中标记出人声语音频段中各个频率值,从而识别出第二频响信号中包含的人声频率,将除人声频率外的其他频率识别为噪声频率,并过滤掉噪声频率,从而生成消除了噪声信号后的滤波信号。该滤波信号只包含有人声频率,并记录有在各个频段该人声频率的增益值。
在S804中,通过所述滤波信号生成所述信号补偿曲线。
在本实施例中,由于全向性麦克风不存在中高频的增益损失,因此可以根据第二频响信号生成的滤波信号,确定在各个不同频率值之间的相对比例,并基于相对比例确定在中高频段的增益补偿系数,从而生成信号补偿曲线,以消除指向性麦克风的先天采集失真的问题。
在本实施例中,通过信号补偿曲线对第一语音信号进行信号补偿,可以对高频的增益进行提升,从而可以补偿由于指向性麦克风的使用位置远离用户说话方向的轴向时而带来高频信号的声能衰减。举例性地,语音信号的高频辐射方向朝用户嘴部的前方所指示的方向,在拾音过程中会有高频信号的损失,因此信号补偿曲线的频响在2~7kHz这一频段增加8~10dB的增益补偿,提升峰点在可以5kHz处,通过信号补偿曲线进行增益补偿还能在一定程度上减少因脸部遮蔽所带来的高频损失,进一步提升了信号采集质量。
在本申请实施例中,通过对第一语音信号以及第二语音信号进行频域转换,分别根据指向性麦克风以及全向性麦克风之前采集的有缺陷,来生成信号补偿曲线,能够提高信号补偿曲线的准确性,。
图9示出了本申请第四实施例提供的一种语音信号的采集方法S202的具体实现流程图。参见图9,相对于图2所述实施例,本实施例提供的一种语音信号的采集方法中S202包括:S2021~S2023,具体详述如下:
进一步地,所述根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号,包括:
在S2021中,生成所述第一语音信号的原始频响曲线。
在本实施例中,智能耳机可以通过傅里叶变换,将第一语音信号转换为频域信号,从而可以确定第一语音信号中各个频率值对应的增益值,从而得到原始频响曲线,该原始频响曲线用于表示频率值与增益之间的相互关系。
在S2022中,以所述信号补偿曲线为基准,对所述原始频响曲线内各个频率值进行拟合,得到频响校准曲线。
在本实施例中,信号补偿曲线可以对指向性麦克风在采集过程中中高频段的增益损失进行信号补偿,因此在生成了第一语音信号的原始频响曲线后,可以根据信号补偿曲线中各个频段的增益值的波形走势,对原始频响曲线内的各个频率进行调整,从而生成频响校准曲线。
在一种可能的实现方式中,智能耳机可以根据信号补偿曲线,确定各个频率值之间的增益比例,基于上述增益比例对原始频响曲线进行拟合,以得到频响校准曲线。例如,信号补偿曲线中,低频段与中频段之间的增益比例为80%,而原始频响曲线中,低频段与中频段之间的增益比例为120%,即中频段的增益比例缺失,可以增大中频段内各个频率值的增益,使得比例调整为80%,与信号补偿曲线中的增益比例一致。
在S2023中,基于所述频响基准曲线生成所述校准语音信号。
在本实施例中,对频响校准曲线进行逆傅里叶变换,将频域信号重新转换为时域信号,得到上述的校准语音信号。
在本申请实施例中,通过将第一语音信号转换为原始频响曲线,从而基于信号补偿曲线对原始频响曲线进行曲线拟合,从而补偿中高频段的频响损失,从而提高指向性麦克风的信号采集指令。
图10示出了本申请第五实施例提供的一种语音信号的采集方法的具体实现流程图。参见图10,相对于图2、图5、图8以及图9任一所述实施例,本实施例提供的一种语音信号的采集方法在所述通过电子设备的指向性麦克风获取第一语音信号之前,还包括:S1001~S1003,具体详述如下:
进一步地,在所述通过电子设备的指向性麦克风获取第一语音信号之前,还包括:
在S1001中,获取当前的环境声强。
在本实施例中,智能耳机在需要执行语音信号的采集操作之前,可以检测当前场景下的环境声强,判断当前的录音环境。若当前的环境声强较小,则表示当前属于较为安静的场景,环境噪声较少,可以执行S1002的操作;反之,若当前的环境声强较大,则可能表示当前属于较为吵杂的场景,环境噪声较大,环境噪声对于录音有较大的影响,此时可以执行S1003的操作。
在本实施例中,该智能耳机配置有指向性麦克风以及全向性麦克风,两个不同麦克风可以对应不同场景的录音操作。
在S1002中,若所述环境声强小于预设的声强阈值,则通过全向性麦克风获取第三语音信号,输出所述第三语音信号。
在本实施例中,在检测到当前的环境声强小于预设的声强阈值时,则表示当前的环境噪声较少,此时可以通过智能耳机内置的全向性麦克风获取第三语音信号,由于全向性麦克风对于各个方向的拾音敏感度相同,即会获取各个方向反馈的噪声信号,而在环境声强较弱的情况下,即便采集全方向的噪声信号,对于人声信号的信噪比影响也较少,因此可以采用全向性麦克风采集人声信号,即上述的第三语音信号,并直接对第三语音信号进行信号输出。
在S1003中,若所述环境声强大于或等于预设的声强阈值,则执行所述通过电子设备的指向性麦克风获取第一语音信号。
在本实施例中,在检测到当前的环境声强大于或等于预设的声强阈值时,则表示当前的环境噪声较大,此时需要采用指向性麦克风获取人声信号,从而降低环境噪声对于人声信号的采集影响,从而提高人声信号的信噪比,则执行通过电子设备的指向性麦克风获取第一语音信号的操作,并通过后续的信号补偿手段,对第一语音信号进行信号补偿,以减少指向性麦克风在中高频段的增益损失。
在本申请实施例中,在智能耳机上配置有全向性麦克风以及指向性麦克风,并在不同的场景下采用对应的麦克风采集语音信号,能够提高信号采集指令的同时,减少不必要的补偿操作,从而提高了语音信号的采集效率以及降低智能耳机的运算量。
图11示出了本申请第六实施例提供的一种语音信号的采集方法S201的具体实现流程图。参见图11,相对于图2、图5、图8以及图9任一所述实施例,本实施例提供的一种语音信号的采集方法S201包括:S1101~S1103,具体详述如下:
进一步地,所述通过电子设备的指向性麦克风获取第一语音信号,包括:
在S1101中,通过所述电子设备的传动部件控制所述指向性麦克风在多个预设角度采集训练语音信号。
在本实施例中,智能耳机的指向性麦克风的安装位置上配置有一传动部件,该传动部件可以控制麦克风在预设平面内以预设的步长进行旋转,实现在多个预设角度下采集语音信号。由于指向性麦克风具有一定的拾音方向,因此在指向性麦克风随着传动部件进行旋转的过程中,其拾音方向也会随之改变,在采集多端对话的过程中,可以通过调整指向性麦克风的拾音方向,从而语音信号的采集效果。基于此,智能耳机在采集语音信号之前,可以通过传动部件,将指向性麦克风旋转至多个预设角度,从而调整指向性麦克风的拾音方向,并获取各个预设角度下采集得到的训练语音信号。需要说明的是,智能耳机可以在多个预设角度下采集预设时长的训练语音信号。举例性地,该训练语音信号的采集时长可以为0.5s。
在S1102中,根据各个所述训练语音信号中人声语音频段的平均幅值,确定目标角度。
在本实施例中,智能耳机将各个训练语音信号转换为频域信号,并根据人体发声频率范围,从各个训练频域信号中提取人声语音频段,并计算各个人声语音频段对应的平均幅值。选取平均幅值最大的预设角度作为目标角度。该角度下,人声语音频段的平均增幅较大,即人声信号的采集效果较好,具有较高的信噪比,因此可以将该预设角度作为目标角度,以在目标角度下录制用户的语音信号。
在S1103中,控制所述传动部件将所述指向性麦克风调整至所述目标角度,并在所述目标角度下获取所述第一语音信号。
在本实施例中,智能耳机在确定了目标角度后,可以通过传动部件将指向性麦克风调整至目标角度,在目标角度下采集第一语音信号,特别在多端对话的场景中,用户的位置发生改变,通过传动部件确定目标角度,能够进一步提高人声信号的采集效果。
在本申请实施例中,通过在智能耳机内配置传动部件,对传动部件调整指向性麦克风的拾音方向,从而确定最佳的拾音角度,提高了拾音效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的语音信号的采集方法,图12示出了本申请实施例提供的语音信号的采集装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图12,该语音信号的采集装置包括:
第一语音信号获取单元121,用于通过电子设备的指向性麦克风获取第一语音信号;
语音信号补偿单元122,用于根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;
校准语音信号输出单元123,用于输出所述校准语音信号。
可选地,所述第一语音信号获取单元121包括:
第二语音信号获取单元,用于在获取所述第一语音信号时,通过所述电子设备的全向性麦克风采集所述第一语音信号对应的第二语音信号;
信号补偿曲线生成单元,用于根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线。
可选地,在所述电子设备采集语音信号时,所述指向性麦克风与人声声源之间的第一距离小于所述全向性麦克风与所述人声声源之间的第二距离。
可选地,所述信号补偿曲线生成单元包括:
频域信号转换单元,用于将所述第一语音信号转换为第一频域信号,以及将所述第二语音信号转换为第二频域信号;
人声语音频段提取单元,用于根据所述第一频域信号提取人声语音频段;
滤波信号生成单元,用于过滤所述第二频域信号中除所述人声语音频段外的噪声频段,得到滤波信号;
滤波信号转换单元,用于通过所述滤波信号生成所述信号补偿曲线。
可选地,所述语音信号补偿单元122还包括:
原始频响曲线生成单元,用于生成所述第一语音信号的原始频响曲线;
频响校准曲线输出单元,用于以所述信号补偿曲线为基准,对所述原始频响曲线内各个频率值进行拟合,得到频响校准曲线;
校准语音信号生成单元,用于基于所述频响基准曲线生成所述校准语音信号。
可选地,所述语音信号的采集装置还包括:
环境声强获取单元,用于获取当前的环境声强;
第三语音信号采集单元,用于若所述环境声强小于预设的声强阈值,则通过全向性麦克风获取第三语音信号,输出所述第三语音信号;
第一语音信号采集触发单元,用于若所述环境声强大于或等于预设的声强阈值,则执行所述通过电子设备的指向性麦克风获取第一语音信号。
可选地,所述第一语音信号获取单元121包括:
训练语音信号采集单元,用于通过所述电子设备的传动部件控制所述指向性麦克风在多个预设角度采集训练语音信号;
目标角度识别单元,用于根据各个所述训练语音信号中人声语音频段的平均幅值,确定目标角度;
目标角度调整单元,用于控制所述传动部件将所述指向性麦克风调整至所述目标角度,并在所述目标角度下获取所述第一语音信号。
因此,本申请实施例提供的语音信号的采集装置同样可以通过指向性麦克风采集得到原始语音信号后,即第一语音信号,基于信号补偿曲线对第一语音信号进行信号补偿,得到校准语音信号,以提高高频段的语音信号的采集效果,降低声染的影响,并输出调整后的校准语音信号,能够在确保采集的语音信号中降低环境噪声基础上,提高语音采集的质量,从而增强了麦克风的信号输出效果。
图13为本申请一实施例提供的电子设备的结构示意图。如图13所示,该实施例的电子设备13包括:至少一个处理器130(图13中仅示出一个)处理器、存储器131以及存储在所述存储器131中并可在所述至少一个处理器130上运行的计算机程序132,所述处理器130执行所述计算机程序132时实现上述任意各个语音信号的采集方法实施例中的步骤。
所述电子设备13可以是桌上型计算机、笔记本、掌上电脑及云端电子设备等计算设备。该电子设备可包括,但不仅限于,处理器130、存储器131。本领域技术人员可以理解,图13仅仅是电子设备13的举例,并不构成对电子设备13的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器130可以是中央处理单元(Central Processing Unit,CPU),该处理器130还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器131在一些实施例中可以是所述电子设备13的内部存储单元,例如电子设备13的硬盘或内存。所述存储器131在另一些实施例中也可以是所述语音信号的采集装置13的外部存储设备,例如所述电子设备13上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器131还可以既包括所述电子设备13的内部存储单元也包括外部存储设备。所述存储器131用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器131还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (8)

1.一种语音信号的采集方法,其特征在于,包括:
通过电子设备的指向性麦克风获取第一语音信号;
根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;
输出所述校准语音信号;
所述根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号,包括:
生成所述第一语音信号的原始频响曲线;
以所述信号补偿曲线为基准,对所述原始频响曲线内各个频率值进行拟合,得到频响校准曲线;
基于所述频响校准曲线生成所述校准语音信号;
所述通过电子设备的指向性麦克风获取第一语音信号,包括:
在获取所述第一语音信号时,通过所述电子设备的全向性麦克风采集所述第一语音信号对应的第二语音信号;
根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线。
2.根据权利要求1所述的采集方法,其特征在于,在所述电子设备采集语音信号时,所述指向性麦克风与人声声源之间的第一距离小于所述全向性麦克风与所述人声声源之间的第二距离。
3.根据权利要求1所述的采集方法,其特征在于,所述根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线,包括:
将所述第一语音信号转换为第一频域信号,以及将所述第二语音信号转换为第二频域信号;
根据所述第一频域信号提取人声语音频段;
过滤所述第二频域信号中除所述人声语音频段外的噪声频段,得到滤波信号;
通过所述滤波信号生成所述信号补偿曲线。
4.根据权利要求1-3任一项所述的采集方法,其特征在于,在所述通过电子设备的指向性麦克风获取第一语音信号之前,还包括:
获取当前的环境声强;
若所述环境声强小于预设的声强阈值,则通过全向性麦克风获取第三语音信号,输出所述第三语音信号;
若所述环境声强大于或等于预设的声强阈值,则执行所述通过电子设备的指向性麦克风获取第一语音信号。
5.根据权利要求1-3任一项所述的采集方法,其特征在于,所述通过电子设备的指向性麦克风获取第一语音信号,包括:
通过所述电子设备的传动部件控制所述指向性麦克风在多个预设角度采集训练语音信号;
根据各个所述训练语音信号中人声语音频段的平均幅值,确定目标角度;
控制所述传动部件将所述指向性麦克风调整至所述目标角度,并在所述目标角度下获取所述第一语音信号。
6.一种语音信号的采集装置,其特征在于,包括:
第一语音信号获取单元,用于通过电子设备的指向性麦克风获取第一语音信号;
语音信号补偿单元,用于根据信号补偿曲线对所述第一语音信号进行信号补偿,生成校准语音信号;
校准语音信号输出单元,用于输出所述校准语音信号;
所述语音信号补偿单元包括:
原始频响曲线生成单元,用于生成所述第一语音信号的原始频响曲线;
频响校准曲线输出单元,用于以所述信号补偿曲线为基准,对所述原始频响曲线内各个频率值进行拟合,得到频响校准曲线;
校准语音信号生成单元,用于基于所述频响校准曲线生成所述校准语音信号;
所述第一语音信号获取单元包括:
第二语音信号获取单元,用于在获取所述第一语音信号时,通过所述电子设备的全向性麦克风采集所述第一语音信号对应的第二语音信号;
信号补偿曲线生成单元,用于根据所述第一语音信号以及所述第二语音信号生成所述信号补偿曲线。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
CN201911275035.5A 2019-12-12 2019-12-12 语音信号的采集方法、装置、电子设备以及存储介质 Active CN112992169B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911275035.5A CN112992169B (zh) 2019-12-12 2019-12-12 语音信号的采集方法、装置、电子设备以及存储介质
PCT/CN2020/125590 WO2021114953A1 (zh) 2019-12-12 2020-10-30 语音信号的采集方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911275035.5A CN112992169B (zh) 2019-12-12 2019-12-12 语音信号的采集方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112992169A CN112992169A (zh) 2021-06-18
CN112992169B true CN112992169B (zh) 2024-06-11

Family

ID=76329560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911275035.5A Active CN112992169B (zh) 2019-12-12 2019-12-12 语音信号的采集方法、装置、电子设备以及存储介质

Country Status (2)

Country Link
CN (1) CN112992169B (zh)
WO (1) WO2021114953A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113542983B (zh) * 2021-07-09 2023-06-27 安徽聆思智能科技有限公司 一种音频信号处理方法、装置、设备及存储介质
CN113596669B (zh) * 2021-08-25 2022-10-28 歌尔科技有限公司 一种语音补偿方法、装置及相关组件
CN114333894A (zh) * 2021-11-19 2022-04-12 科大讯飞股份有限公司 增益补偿方法及相关装置、设备、系统和存储介质
CN114257684A (zh) * 2021-12-17 2022-03-29 歌尔科技有限公司 一种语音处理方法、系统、装置及电子设备
CN114071324A (zh) * 2021-12-21 2022-02-18 Oppo广东移动通信有限公司 音频处理方法、装置以及电子设备
CN115361636A (zh) * 2022-08-15 2022-11-18 Oppo广东移动通信有限公司 声音信号调整方法、装置、终端设备及存储介质
CN116668892B (zh) * 2022-11-14 2024-04-12 荣耀终端有限公司 音频信号的处理方法、电子设备及可读存储介质
CN117539817B (zh) * 2024-01-09 2024-04-05 上海韬润半导体有限公司 一种串行信号传输调整电路、设备及调整方法
CN117812500B (zh) * 2024-02-27 2024-05-07 深圳市美格信测控技术有限公司 基于音频信号处理的耳机防风噪测试方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524056A (en) * 1993-04-13 1996-06-04 Etymotic Research, Inc. Hearing aid having plural microphones and a microphone switching system
CN101203063A (zh) * 2007-12-19 2008-06-18 北京中星微电子有限公司 麦克风阵列的噪声消除方法及装置
CN101807404A (zh) * 2010-03-04 2010-08-18 清华大学 一种电子耳蜗前端指向性语音增强的预处理系统
CN106034272A (zh) * 2015-03-17 2016-10-19 钰太芯微电子科技(上海)有限公司 扬声器补偿系统及便携式移动终端
CN107274907A (zh) * 2017-07-03 2017-10-20 北京小鱼在家科技有限公司 双麦克风设备上实现指向性拾音的方法和装置
CN108449691A (zh) * 2018-05-04 2018-08-24 科大讯飞股份有限公司 一种拾音装置及声源距离确定方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040044982A (ko) * 2001-09-24 2004-05-31 클라리티 엘엘씨 선택적인 사운드 증강
US7817808B2 (en) * 2007-07-19 2010-10-19 Alon Konchitsky Dual adaptive structure for speech enhancement
US9031259B2 (en) * 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
CN106409306A (zh) * 2016-09-19 2017-02-15 宁波高新区敦和科技有限公司 一种获取人声的智能系统及基于该系统的获取方法
CN110234043B (zh) * 2019-05-31 2020-08-25 歌尔科技有限公司 基于麦克风阵列的声音信号处理方法、装置及设备
CN110197671A (zh) * 2019-06-17 2019-09-03 深圳壹秘科技有限公司 定向拾音方法、录音设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524056A (en) * 1993-04-13 1996-06-04 Etymotic Research, Inc. Hearing aid having plural microphones and a microphone switching system
CN101203063A (zh) * 2007-12-19 2008-06-18 北京中星微电子有限公司 麦克风阵列的噪声消除方法及装置
CN101807404A (zh) * 2010-03-04 2010-08-18 清华大学 一种电子耳蜗前端指向性语音增强的预处理系统
CN106034272A (zh) * 2015-03-17 2016-10-19 钰太芯微电子科技(上海)有限公司 扬声器补偿系统及便携式移动终端
CN107274907A (zh) * 2017-07-03 2017-10-20 北京小鱼在家科技有限公司 双麦克风设备上实现指向性拾音的方法和装置
CN108449691A (zh) * 2018-05-04 2018-08-24 科大讯飞股份有限公司 一种拾音装置及声源距离确定方法

Also Published As

Publication number Publication date
CN112992169A (zh) 2021-06-18
WO2021114953A1 (zh) 2021-06-17

Similar Documents

Publication Publication Date Title
CN112992169B (zh) 语音信号的采集方法、装置、电子设备以及存储介质
US10405081B2 (en) Intelligent wireless headset system
US11308977B2 (en) Processing method of audio signal using spectral envelope signal and excitation signal and electronic device including a plurality of microphones supporting the same
CN105280195B (zh) 语音信号的处理方法及装置
CN110970057B (zh) 一种声音处理方法、装置与设备
WO2018095035A1 (zh) 耳机及其语音识别方法
CN108540900B (zh) 音量调节方法及相关产品
CN112532266A (zh) 智能头盔及智能头盔的语音交互控制方法
KR20200098323A (ko) 복수의 마이크들을 포함하는 음향 출력 장치 및 복수의 마이크들을 이용한 음향 신호의 처리 방법
WO2023284402A1 (zh) 音频信号处理方法、系统、装置、电子设备和存储介质
CN106872945A (zh) 声源定位方法、装置和电子设备
CN113949955B (zh) 降噪处理方法、装置、电子设备、耳机及存储介质
US20230396940A1 (en) Hearing aid having a sensor
CN113132863A (zh) 立体声拾音方法、装置、终端设备和计算机可读存储介质
EP3240265A1 (en) Apparatus and method for processing audio signals
TW202021378A (zh) 耳機組控制方法和耳機組
CN114333886A (zh) 音频处理方法、装置、电子设备及存储介质
CN114157945A (zh) 一种数据处理方法及相关装置
CN113207056B (zh) 一种无线耳机及其透传方法、装置及系统
CN109754796A (zh) 使用多个麦克风执行功能的方法和电子装置
CN111182416B (zh) 处理方法、装置及电子设备
CN115695620A (zh) 智能眼镜及其控制方法和系统
CN113744750A (zh) 一种音频处理方法及电子设备
CN113038318B (zh) 一种语音信号处理方法及装置
CN114120950B (zh) 一种人声屏蔽方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant