CN108538320A

CN108538320A - 录音控制方法和装置、可读存储介质、终端

Info

Publication number: CN108538320A
Application number: CN201810276548.7A
Authority: CN
Inventors: 张海平
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-14
Anticipated expiration: 2038-03-30
Also published as: CN108538320B

Abstract

本申请涉及一种录音控制方法和装置、计算机可读存储介质、终端、耳机。方法包括：基于麦克风、第一电声换能器和第二电声换能器获取各声源信号的位置信息；根据各声源信号的位置信息接收用户输入的录音方位；根据声源信号的预设特征参数在录音方位内获取目标声源信号；对目标声源信号进行录音处理，并生成录音文件，可以通过耳机的固有器件实现对各声源信号的定位，用户可以快速的锁定自己所需的录音方位信息，根据用户的输入操作即可实现对目标声源信号的定向录音，使用户可以听清自己感兴趣的声音，提高用户的体验度。

Description

录音控制方法和装置、可读存储介质、终端

技术领域

本申请涉及音频技术领域，特别是涉及一种录音控制方法和装置、计算机可读存储介质、终端、耳机。

背景技术

随着通信技术的发展，终端已经密切融入人们生活中，大大改善了人们的生活。用户戴上耳机聆听终端播放的声音时，作为辅助视觉感官的听觉因耳机播放的声音受到了极大的限制，用户很难监听到周围环境中用户所感兴趣的声音，无法利用耳机对该声源信号进行定位，并对其进行定向录音。

发明内容

本申请实施例提供一种录音控制方法和装置、计算机可读存储介质、终端，可以基于耳机获取的各声源信号的位置信息实现对目标声源信号的定向录制，提高用户体验度。

一种录音控制方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述方法包括：

基于麦克风、第一电声换能器和第二电声换能器获取各声源信号的位置信息；

根据所述各声源信号的位置信息接收用户输入的录音方位；

根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号；

对所述目标声源信号进行录音处理，并生成录音文件。

一种录音控制装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

位置获取模块，用于基于麦克风、第一电声换能器和第二电声换能器获取各声源信号对应的位置信息；

方位接收模块，用于根据所述所述各声源信号对应的位置信息接收用户输入的录音方位；

目标获取模块，用于根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号；

录音生成模块，用于对所述目标声源信号进行录音处理，并生成录音文件。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请各个实施例中的录音控制方法的步骤。

一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现本申请各个实施例中的录音控制方法的步骤。

一种耳机，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现本申请各个实施例中的录音控制方法的步骤。

本申请实施例提供的录音控制方法和装置、计算机可读存储介质、终端、耳机，可以通过耳机的固有器件实现对各声源信号的定位，不需在终端设置额外的麦克风实现对声源信号的定位，节约了成本；同时，基于获取的各声源信号的位置，用户可以快速的锁定自己所需的录音方位信息，根据用户的输入操作即可实现对目标声源信号的定向录音，使用户可以听清自己感兴趣的声音，提高用户的体验度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中录音控制方法的应用环境示意图；

图2为一个实施例中终端的内部结构示意图；

图3为一个实施例中录音控制方法的流程图；

图4为一个实施例中基于麦克风、第一电声换能器和第二电声换能器获取所述声源信号对应的位置信息的流程图；

图5为一个实施例中所述根据所述多声源信号对应的位置信息接收用户输入的录音方位的流程图；

图6为一个实施例中方位选取界面中的方位图的示意图；

图7为一个实施例所述根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号的流程图；

图8为另一个实施例所述根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号的流程图；

图9为一个实施例中对所述目标声源信号进行处理，并生成录音文件的流程图；

图10为另一个实施例中对所述目标声源信号进行处理，并生成录音文件的流程图；

图11为一个实施例中录音控制装置的结构框图；

图12为与本申请实施例提供的终端相关的手机的部分结构的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一获取单元称为第二获取单元，且类似地，可将第二获取单元称为第一获取单元。第一获取单元和第二获取单元两者都是获取单元，但其不是同一获取单元。

图1为一个实施例中录音控制方法的应用环境示意图。如图1所示，该应用环境包括终端110和与该终端110进行通信的耳机120。

其中，耳机120的类型可以为入耳式耳机、耳塞式耳机、头戴式耳机、挂耳式耳机等。终端与耳机120可以通过有线或无线的方式进行通信，实现数据的传输。耳机120包括麦克风、第一电声换能器和第二电声换能器，其中第一电声换能器和第二电声换能器具有采集和播放音频信号的功能，也即，第一电声换能器和第二电声换能器既可以当扬声器(喇叭)使用，也可以当麦克风使用。

图2为一个实施例中终端的内部结构示意图。该终端110包括通过系统总线连接的处理器、存储器和显示屏。其中，该处理器用于提供计算和控制能力，支撑整个终端110的运行。存储器用于存储数据、程序、和/或指令代码等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于终端110的音频信号处理方法。存储器可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random-Access-Memory，RAM)等。例如，在一个实施例中，存储器包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统、数据库和计算机程序。该数据库中存储有用于实现以上各个实施例所提供的一种音频信号处理方法相关的数据。该计算机程序可被处理器所执行，以用于实现本申请各个实施例所提供的一种音频信号处理方法。内存储器为非易失性存储介质中的操作系统、数据库和计算机程序提供高速缓存的运行环境。显示屏可以是触摸屏，比如为电容屏或电子屏，用于显示终端110的界面信息，显示屏包括亮屏状态和灭屏状态。该终端110可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端110的限定，具体的终端110可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中录音控制方法的流程图。本实施例中的录音控制方法，以运行于图1中的终端或耳机上为例进行描述。一种录音控制方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，其中，所述第一电声换能器和第二电声换能器用于播放和录制音频信号。如图3所示，录音控制方法包括步骤302至步骤308。

步骤302：基于麦克风、第一电声换能器和第二电声换能器获取各声源信号的位置信息。

耳机可以通过有线或无线的方式与终端进行通讯，当耳机处于播放状态时，用户可以利用耳机进行通话、听歌或听书等。其中，播放状态可以理解为耳机处于工作状态，且佩戴在用户的耳朵上。

耳机包括麦克风，第一电声换能器和第二电声换能器，其中，所述麦克风用于采集用户的语音信号或外界环境音。第一电声换能器、第二电声换能器分别作为耳机的左喇叭(扬声器)、右喇叭(扬声器)，将音频信号对应的电信号转换成用户可以听到的声波信号。具体地，第一电声换能器、第二电声换能器对声波非常敏感，能够引起扬声器纸盆的振动，带动与纸盆相连的线圈在永久磁体的磁场中作切割磁力线的运动，从而产生随着声波的变化而变化的电流(产生电流的现象在物理学上称为电磁感应现象)，同时，在线圈两端将输出音频的电动势，因此，电声转换器还可以录制外界环境音。也即，耳机的第一电声换能器、第二电声换能器既可以作为扬声器也可以作为麦克风使用。

在本申请实施例中，可以将第一电声换能器和第二电声换能器作为麦克风使用，也即，可以通过耳机上的麦克风、第一电声换能器和第二电声换能器三个麦克风来采集各个声源信号。其中，声源信号声源信号可以是喇叭、某个音响设备或者发生器产生的，也可以是人谈话的声音。声源信号的数量可以为一个、两个或多个。

基于麦克风、第一电声换能器和第二电声换能器三个麦克风形成的麦克风阵列，根据多声源定位算法(基于高分辨率谱估计的定向技术、基于可控波束形成技术等)获取对各个声源进行定位，进而获取各个声源的位置信息。其中，位置信息可以理解为声源信号距离耳机的距离信息以及相对于耳机的方位信息。

需要说明的是，声源信号相对于耳机的位置信息可以理解为语音信号相对于耳机中心位置(麦克风、第一电声换能器和第二电声换能器的三者的中心位置)的位置信息，也可以理解为声源信号相对于麦克风、第一电声换能器或第二电声换能器的位置信息；还可以理解为声源信号相对于耳机上任一参考点的位置信息。

步骤304：根据所述各声源信号的位置信息接收用户输入的录音方位。

根据获取的各个声源信号的位置信息生成各个声源信号的方位图，并将生成的方位图显示在与耳机连接的终端的显示屏幕上。其中，该方位图可以显示出各个声源信号的大致方位，该方位图是以该终端为中心而形成的。当用户想要设定录音方位时，可以对方位图上的位置信息进行触控操作。当用户执行相应的触控操作时，终端就可以接收用户的触控操作来获取录音方位。

需要说明的是，录音方位可以为某一个特定的角度，也可以为某一角度范围，再次，不对录音方位的数值做进一步的限定。

步骤306：根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号。

其中，预设特征参数可以为声源信号中的声纹信息、声波振幅信息或其他能够反映声源信号的音高、音强、音长、音色等特征参数。根据声源信号的预设特征参数，在用户输入的的录音方位内获取目标声源信号。其中，目标声源信号为该录音方位内多个声源信号中的一个，且各目标声源信号携带有预设特征参数。

步骤308：对所述目标声源信号进行录音处理，并生成录音文件。

终端可以控制耳机的麦克风、第一电声转换器、第二电声转换器可以对该获取的目标声源信号进行录音，并生成相应的录音文件。

上述录音控制方法，可以基于耳机的麦克风、第一电声换能器和第二电声换能器获取各声源信号的位置信息；根据所述各声源信号的位置信息接收用户输入的录音方位；根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号；对所述目标声源信号进行录音处理，并生成录音文件，也即，可以通过耳机的固有器件实现对各声源信号的定位，不需在终端设置额外的麦克风实现对声源信号的定位，节约了成本，基于获取的各声源信号的位置，用户可以快速的锁定自己所需的录音方位信息，根据用户的输入操作即可实现对目标声源信号的定向录音，使用户可以听清自己感兴趣的声音，提高用户的体验度。

如图4所示，在一个实施例中个，基于麦克风、第一电声换能器和第二电声换能器获取所述声源信号对应的位置信息，包括：(CN105096956)

步骤402：获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前帧各声源信号的三组时间延迟。

声源信号也可以称之为声波信号，声波在传播过程中，由于距离麦克风、第一电声换能器、第二电声换能器的距离不同，声波到达麦克风、第一电声换能器、第二电声换能器的时间也就不同，声波到达麦克风、第一电声换能器、第二电声换能器的间隔时间就叫做时延。

由于麦克风、第一电声换能器、第二电声换能器固定在耳机上，可以基于耳机构建坐标系，则麦克风、第一电声换能器、第二电声换能器在坐标系中的位置为已知量，同时，麦克风、第一电声换能器、第二电声换能器各个两两之间的距离也为已知量。结合声波在空气中的传播速度，可以计算出声源信号到达麦克风、第一电声换能器、第二电声换能器中任意两个的时间间隔。

具体的，为了描述方便，将麦克风、第一电声换能器、第二电声换能器均称之为麦克风，并分别用M1、M2、M3来表示。分别以麦克风M1、M2、M3作为参考麦克风，得到每两个麦克风(麦克风对)之间的时间延迟(时间间隔)，进而获取三组不同的时间延迟。其中，可以通过获取各个麦克风M1、M2、M3接收到的信号幅值的互相关函数的峰值偏移量，在根据对信号的采样频率，继而估算出时间延迟。

步骤404：根据所述三组时间延迟获取平均时间延迟。

根据获取的三组时间延迟数据中对应的时间延迟进行加权平均得到平均值，作为平均时间延迟。

步骤406：根据所述平均时间延迟对所述声源信号的位置信息进行定位估计，并获取各所述声源信号相对于所述耳机的位置信息。

根据平均时间延迟以及麦克风M1、M2、M3已知的位置信息，进而可以对各声源信号的位置信息进行定位估计，并获取各声源信号相对于耳机的位置信息，也即，该各声源信息与耳机之间的距离信息和方位信息。

本实施例中的方法，分别以麦克风M1、M2、M3作为参考麦克风分别计算得到与其他麦克风的之间的成对时间延迟，最后对得到的三组数据中相对应的时间延迟对进行加权平均得到平均值，根据获取的平均值对各声源信号进行定位，可以提高定位的精确度。

如图5所示，在一个实施例中，所述根据所述多声源信号对应的位置信息接收用户输入的录音方位，包括：

步骤502：显示具有所述各声源信号的位置信息的方位选取界面；

如图6所示，方位选取界面上显示了包括多个方位图标的方位图，每个方位图标代表一个声源信号的位置信息，其中，由多个方位图标构成的方位图为圆形，其在该方位图上还设有表示方位信息的刻度数。其中，0度为用户正向面对的方向，也即，声源信号位于耳机的正前方，也即12点钟方向。

优选的，为了操作界面的美观以及操作的便捷性，在方位图标构成的圆周内，还设置有录音开始/暂停按钮(如图中的三角形图标)。

步骤504：接收用户在所述方位选取界面对所述位置信息的触发操作；

步骤506：根据触发操作确定所述录音方位。

方位图标可以被设计成虚拟按钮的形式，当用户触摸其中一个方位图标时，可认为用户选择该方位图标代表的位置为用户选取的录音方向，根据用户在方位选取界面上对方位图标的触摸操作即终端即可接收该触发操作，根根该触发操作生成录音方向。

需要说明的是，方位图标的形状、存在形式以及触发方式等均不作限定，本领域技术人员可根据实际情况进行设计。

本实施中的录音控制方法，可以将基于耳机获取的各声源信号的位置信息显示在方位选取界面上，并可以根据用户在方位选取界面上对方位图标的触发操作确定录音方位，使用户能够便捷地选择录音方向，增加可玩性，提升用户体验。

如图7所示，在一个实施例中，所述预设特征参数为声纹信息。其中，所述根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号，包括：

步骤702：提取所述各声源信号的声纹信息，并获取所述声纹信息对应的身份信息；

声纹信息是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带言语信息的声波频谱。由于每个人的声道、口腔和鼻腔也具有个体的差异性，个体的差异性都会导致发声气流的改变，造成音质、音色的差别。因此，可以利用不同人发出的语音信号的声纹信息来对语音信号进行区别。语音信号中的声纹信息同指纹一样具有身份识别的作用，也即，声纹信息可以用来表征谈话者的身份信息。

提取所述语音信号中每个人的声纹信息可以通过模板匹配方法、最近邻方法、神经网络法、隐式马尔可夫模型(Hidden Markov Model，HMM，HMM)法、VQ聚类法(如LBG)、Mel频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)法、线性预测系数(Perceptual Linear Predictive Coefficient，LPC)法、多项式分类器法等方法实现。

根据声纹信息就可以获取对应说话者的身份信息。例如，终端可以将所述声纹信息发送给云服务器，请求云服务器确定声纹信息对应的身份信息。所述云服务器根据声纹信息与样本声纹信息进行匹配，进而确定声纹信息对应的身份信息，并返回给所述终端。其中，身份信息可以包括但不限于：姓名、工作单位、职位、所在部门、联系方式、所处的地址位置、毕业院校等信息。

步骤704：当获取的所述身份信息与预设身份信息相匹配时，在所述录音方位内将所述身份信息对应的声源信号作为目标声源信号。

例如，当用户处于会议场所或鸡尾酒演习场所时，在获取声纹信息对应的身份信息前，可以先根据参会(会议或宴会)人员的名单获取所有人员的身份信息，例如姓名信息，尤其是发言人的身份信息。当获取的身份信息与预设身份信息相匹配时，在录音方位内将该身份信息对应的声源信号作为目标声源信号。其中，预设身份信息可以为参会发言人、用户的领导、朋友等用户想关注的人群。也即，目标声源信号为该具有该预设身份信息的人而发出，而对目标声源信号进行录制时，仅获取该预设身份信息所发出的目标声源信号，去掉了除目标声源信号以外的其他声音信号，并生成录音文件，这样做可去掉除目标声源信号以外的其他声源的声音，即相当于滤除了用户不感兴趣的声音，可保证用户能够清晰的听到自己感兴趣的声音。

如图7所示，在一个实施例中，所述预设特征参数为声波振幅信息；所述根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号，包括：

步骤802：基于远场拾音技术，获取所述各声源信号的声波波形。

当所需的录音场景是课堂或者报告会议时，其该录音场景中通常主讲人为一个，而用户所要录音的重点即是该主讲人的讲话内容。通过远场拾音技术，即便声源距离耳机的距离较远，仍可以清晰的采集到音源的声音，获得各声源信号的声波波形。

步骤804：根据所述各声源信号的声波波形在所述录音方位内确定所述目标声源信号。

在课堂或者报告会议等录音场景中，通常只有老师或者主讲人的声音较为洪亮、清晰，那么耳机的麦克风、第一电声转换器或第二电声转换器采集到的老师或主讲人的声波的振幅通常是较大的，即声音较大，而当有其他人员在讨论时，耳机采集到的讨论者的声波的振幅通常是较小的，即声音较小，可以认为是噪音。可以通过上述方法，确定本次录音的目标音源。

基于上述方法可以确定录音的目标声源信号，进而可以实现用户选取的录音方位上的定向录音，使用户在收听所生成的录音文件时，能够清楚地听到目标声源信号的声音，提升用户体验。

如图7所示，在一个实施例中，所述对所述目标声源信号进行处理，并生成录音文件，包括：

步骤902：根据所述录音方位控制所述麦克风、第一电声换能器或第二电声换能器持续采集所述目标声源信号；

当获取目标声源信号时，用户可以基于耳机的麦克风、第一电声换能器或第二电声换能器持续采集所述目标声源信号，以实现对目标声源信号的录音。其中，根据用户选取的录音方位可以控制耳机上的任意具有采集声音的固件对目标声源信号进行采集。若录音方位在用户的正前方，则可以控制耳机的麦克风持续采集所述目标声源信号；若录音方位在用户的左侧方位，则可以控制耳机的第一电声换能器(左扬声器/喇叭)持续采集所述目标声源信号；若录音方位在用户的右侧方位，则可以控制耳机的第二电声换能器(右左扬声器/喇叭)持续采集所述目标声源信号。也即，可以根据用户选取的录音方位合理的选择麦克风、第一电声换能器还是第二电声换能器来采集目标声源信号，以获取清楚的目标声源信号。

步骤904：对所述目标声源信号进行增益增强和降噪处理；

当基于耳机的麦克风、第一电声换能器或第二电声换能器采集的目标声源信号时，可以对获取的目标声源信号进行增益增强和降噪处理。具体的，可以进一步解析所述目标声源信号，通过声纹识别，过滤去除目标声源信号中携带该声纹信息以外的其他声音，并对该具有该声纹信息的目标声源信号进行增益增强处理。

步骤906：根据处理后的目标声源信号生成所述录音文件。

根据处理后的目标声源信号生成相应的录音文件，基于步骤802、步骤804的处理，可以定向性的选择采集目标声源信号的麦克风，可以提供录音文件中声音的声音强度以及响度等属性，进一步方便用户听清自己感兴趣的声音。

在一个实施例中，所述对所述目标声源信号进行处理，并生成录音文件，包括：

步骤1002：获取所述目标声源信号对应的身份信息以及所述目标声源信号的地理位置信息。

当前述步骤中若确定目标声源信号预设特征参数为声纹信息时，就还可以该目标声源信号对应的身份信息。同时可以基于终端内置的GPS定位模块获取获取终端当前所处的地理位置信息，由于耳机与终端连接，其可以将终端当前的地理位置信息作为耳机的地理位置信息。根据耳机的地理位置信息以及目标声源信号相对于耳机的位置信息，就可以获取目标声源信号的地理位置信息。

步骤1004：根据所述目标声源信号、身份信息和地理位置信息生成所述录音文件。

将获取的目标声源信号的身份信息、地理位置信息与目标声源信号进行绑定，生成录音文件。进一步的，该录音文件还可以携带采集该目标声源信号的时间信息，这样就可以及时获取该录音文件的身份、地点和时间信息，可以丰富的展现目标声源信号。

当用户再次播放该录音文件时，可以知晓该目标声源信号中所包括的主讲人的身份信息、时间信息以及地理位置信息，以便用户记忆回想。同时，当使用耳机时，用户能够通过录制的录音文件获取外界的情况，用户不必反复佩戴耳机，就能知晓外界的交谈内容，避免错过重要的讯息。

需要说明的是，步骤902-步骤904还可以设置在步骤802-步骤806之前或之后，也即，在生成录音文件时，可以包括步骤802-步骤806以及步骤902-步骤904，其中，步骤802-步骤806、步骤902-步骤904之间的先后顺序在本申请中不做进一步的限定。

应该理解的是，虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图11为一个实施例的录音控制装置的结构框图。录音控制装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

位置获取模块1110，用于基于麦克风、第一电声换能器和第二电声换能器获取各声源信号对应的位置信息；

方位接收模块1120，用于根据所述所述各声源信号对应的位置信息接收用户输入的录音方位；

目标获取模块1130，用于根据所述声源信号的预设特征参数在所述录音方位内获取目标声源信号；

录音生成模块1140，用于对所述目标声源信号进行录音处理，并生成录音文件。

上述录音控制装置，可以通过耳机的固有器件实现对各声源信号的定位，不需在终端设置额外的麦克风实现对声源信号的定位，节约了成本；同时，基于获取的各声源信号的位置，用户可以快速的锁定自己所需的录音方位信息，根据用户的输入操作即可实现对目标声源信号的定向录音，使用户可以听清自己感兴趣的声音，提高用户的体验度。

在一个实施例中，位置获取模块，包括：

第一获取单元，用于获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前帧各声源信号的时间延迟；

第二获取单元，用于根据所述三组时间延迟获取平均时间延迟；

第三获取单元，用于根据所述平均时间延迟对所述声源信号的位置信息进行定位估计，并获取各所述声源信号相对于所述耳机的位置信息。

在一个实施例中，方位接收模块，包括：

显示单元，用于显示具有各所述声源信号的位置信息的方位选取界面；

接收单元，用于接收用户在所述方位选取界面对所述位置信息的触发操作；

第一确定单元，用于根据触发操作确定所述录音方位。

在一个实施例中，目标获取模块，包括：

提取单元，用于提取各所述声源信号的声纹信息，并获取各所述声纹信息对应的身份信息；

判断单元，用于当获取的所述身份信息与预设身份信息相匹配时，在所述录音方位内将所述身份信息对应的声源信号作为目标声源信号。

在另一个实施例中，目标获取模块，包括：

第四获取单元，用于基于远场拾音技术，获取各所述声源信号的声波振幅；

第二确定单元，用于根据各声源信号的声波振幅在所述录音方位内确定所述目标声源信号。

在一个实施例中，录音生成模块，包括：

第五获取单元，用于获取所述目标声源信号的位置信息；

控制单元，用于根据所述目标声源信号的位置信息控制所述麦克风、第一电声换能器或第二电声换能器持续采集所述目标声源信号；

处理单元，用于对所述目标声源信号进行增益增强和降噪处理；

生成单元，用于根据处理后的目标声源信号生成所述录音文件。

在另一个实施例中，录音生成模块，包括：

第六获取单元，用于获取所述目标声源信号对应的身份信息以及所述目标声源信号的地理位置信息；

生成单元，用于将所述身份信息和地理位置信息与所述目标声源信号进行绑定以生成所述录音文件。

上述录音控制装置中各个模块的划分仅用于举例说明，在其他实施例中，可将录音控制装置按照需要划分为不同的模块，以完成上述录音控制装置的全部或部分功能。

关于录音控制装置的具体限定可以参见上文中对于录音控制方法的限定，在此不再赘述。上述录音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请实施例中提供的录音控制装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种耳机，该耳机包括上述技术方案提供的录音控制装置，关于录音控制装置的具体限定可以参见上文中对于录音控制方法的限定，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行录音控制方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行录音控制方法。

本申请实施例还提供了一种终端。如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑、穿戴式设备等任意终端设备，以终端为手机为例：

图12为与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(Radio Frequency，RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity，WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12所示的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，RF电路1210可用于收发信息或通话过程中，信号的接收和发送，可将基站的下行信息接收后，给处理器1280处理；也可以将上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System ofMobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能的应用程序、图像播放功能的应用程序等)等；数据存储区可存储根据手机的使用所创建的数据(比如音频数据、通讯录等)等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1230可用于接收输入的数字或字符信息，以及产生与手机1200的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括操作面板1231以及其他输入设备1232。操作面板1231，也可称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在操作面板1231上或在操作面板1231附近的操作)，并根据预先设定的程式驱动相应的连接装置。在一个实施例中，操作面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现操作面板1231。除了操作面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241。在一个实施例中，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1241。在一个实施例中，操作面板1231可覆盖显示面板1241，当操作面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中，操作面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将操作面板1231与显示面板1241集成而实现手机的输入和输出功能。

手机1200还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及距离传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，距离传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。运动传感器可包括加速度传感器，通过加速度传感器可检测各个方向上加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换)、振动识别相关功能(比如计步器、敲击)等；此外，手机还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器等。

音频电路1260、扬声器1261和传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210可以发送给另一手机，或者将音频数据输出至存储器1220以便后续处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于手机1200的必须构成，可以根据需要而省略。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监听。在一个实施例中，处理器1280可包括一个或多个处理单元。在一个实施例中，处理器1280可集成应用处理器和调制解调器，其中，应用处理器主要处理操作系统、用户界面和应用程序等；调制解调器主要处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1280中。比如，该处理器1280可集成应用处理器和基带处理器，基带处理器与和其它外围芯片等可组成调制解调器。手机1200还包括给各个部件供电的电源1290(比如电池)，优选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

在一个实施例中，手机1200还可以包括摄像头、蓝牙模块等。

在本申请实施例中，该手机所包括的处理器执行存储在存储器上的计算机程序时实现上述所描述的录音控制方法。

在本申请实施例还提供一种耳机，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现上述所描述的录音控制方法。

在一个实施例中，所述麦克风用于采集声源信号；所述第一电声换能器、第二电声换能器均用于采集声源信号及播放所述耳机输出的音频信号。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种录音控制方法，所述方法基于包括麦克风、第一电声换能器和第二电声换能器的耳机，其特征在于，所述方法包括：

根据所述各声源信号的位置信息接收用户输入的录音方位；

根据所述各声源信号的预设特征参数在所述录音方位内获取目标声源信号；

对所述目标声源信号进行录音处理，并生成录音文件。

2.根据权利要求1所述的方法，其特征在于，基于麦克风、第一电声换能器和第二电声换能器获取所述声源信号对应的位置信息，包括：

获取以麦克风、第一电声换能器和第二电声换能器作为参考麦克风接收当前帧所述各声源信号的三组时间延迟；

根据所述三组时间延迟获取平均时间延迟；

根据所述平均时间延迟对所述声源信号的位置信息进行定位估计，并获取各所述声源信号相对于所述耳机的位置信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各声源信号对应的位置信息接收用户输入的录音方位，包括：

显示具有所述各声源信号的位置信息的方位选取界面；

接收用户在所述方位选取界面对所述位置信息的触发操作；

根据触发操作确定所述录音方位。

4.根据权利要求1所述的方法，其特征在于，所述预设特征参数为声纹信息；所述根据所述各声源信号的预设特征参数在所述录音方位内获取目标声源信号，包括：

提取所述各声源信号的声纹信息，并获取所述各声纹信息对应的身份信息；

当获取的所述身份信息与预设身份信息相匹配时，在所述录音方位内将所述身份信息对应的声源信号作为目标声源信号。

5.根据权利要求1所述的方法，其特征在于，所述预设特征参数为声波振幅信息；所述根据所述各声源信号的预设特征参数在所述录音方位内获取目标声源信号，包括：

基于远场拾音技术，获取所述各声源信号的声波振幅；

根据所述各声源信号的声波振幅在所述录音方位内确定所述目标声源信号。

6.根据权利要求1所述的方法，其特征在于，所述对所述目标声源信号进行处理，并生成录音文件，包括：

根据所述录音方位控制所述麦克风、第一电声换能器或第二电声换能器持续采集所述目标声源信号；

对所述目标声源信号进行增益增强和降噪处理；

根据处理后的目标声源信号生成所述录音文件。

7.根据权利要求4所述的方法，其特征在于，所述根据处理后的目标声源信号生成所述录音文件，包括：

获取所述目标声源信号对应的身份信息以及所述目标声源信号的地理位置信息；

将所述身份信息和地理位置信息与所述目标声源信号进行绑定以生成所述录音文件。

8.一种录音控制装置，所述装置基于包括麦克风、第一电声换能器和第二电声换能器的耳机，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

11.一种耳机，其特征在于，包括麦克风、第一电声换能器、第二电声换能器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器分别与所述麦克风、第一电声换能器、第二电声换能器、存储器电连接，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

12.根据权利要求11所述的耳机，其特征在于，所述麦克风用于采集声源信号；所述第一电声换能器、第二电声换能器均用于采集声源信号及播放所述耳机输出的音频信号。