CN107845386B

CN107845386B - 声音信号处理方法、移动终端和服务器

Info

Publication number: CN107845386B
Application number: CN201711122652.2A
Authority: CN
Inventors: 李黎
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2020-04-21
Anticipated expiration: 2037-11-14
Also published as: CN107845386A

Abstract

本发明公开了一种声音信号处理方法，包括：当接收到声音信号时，对声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配；当音源主体与预存的用户信息相匹配时，基于时间轴记录声音信号；将声音信号、声音信号的时间轴标记以及音源主体的标识信息发送至服务器，供服务器对声音信号进行处理。本发明还公开了相对应的另一种声音信号处理方法、移动终端、服务器和计算机可读存储介质。本发明能够实现多路声音信号场景下的声音信号处理，满足用户的使用需求。

Description

声音信号处理方法、移动终端和服务器

技术领域

本发明涉及终端领域，尤其涉及声音信号处理方法、移动终端和服务器。

背景技术

随着移动终端技术的迅猛发展，人们的工作、学习和娱乐都越来越依赖移动终端的应用。

在很多场景下，例如多人会议时，需要记录多人发出的声音，例如与会人员的会议发言等。在现有相关技术中，通常采用单个录音设备对会议过程进行录音，但是如果与会人员距离录音设备的距离较远，单个录音设备将无法收录位于远端的与会人员的发言；如果有多人同时发言，单个录音设备也无法分辨各与会人员的发言，因而无法记录下清晰的发言内容。

因此，亟需一种能够处理多路声音信号的声音信号处理方案。

发明内容

本发明实施例提供一种声音信号处理方法、移动终端和服务器，以解决现有技术无法处理的多路声音信号场景下的声音信号处理问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，提供了一种声音信号处理方法，该方法包括：

当接收到声音信号时，对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体是否与预存的用户信息相匹配；

当所述音源主体与预存的用户信息相匹配时，基于时间轴记录所述声音信号；

将所述声音信号、所述声音信号的时间轴标记以及所述音源主体的标识信息发送至服务器，供所述服务器对所述声音信号进行处理。

第二方面，提供了另一种声音信号处理方法，该方法包括：

接收移动终端发送来的声音信号、所述声音信号的时间轴标记以及产生所述声音信号的音源主体的标识信息；所述声音信号由所述移动终端对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体与预存的用户信息相配时，基于时间轴记录；

基于所述声音信号的时间轴标记，将各音源主体产生的所述声音信号在时间轴上进行对准和同步；

基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号。

第三方面，提供了一种移动终端，该移动终端包括：

声纹识别模块，用于当接收到声音信号时，对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体是否与预存的用户信息相匹配；

声音信号记录模块，用于当所述音源主体与预存的用户信息相匹配时，基于时间轴记录所述声音信号；

声音信号发送模块，用于将所述声音信号、所述声音信号的时间轴标记以及所述音源主体的标识信息发送至服务器，供所述服务器对所述声音信号进行处理。

第四方面，提供了一种服务器，该服务器包括：

声音信号接收模块，用于接收移动终端发送来的声音信号、所述声音信号的时间轴标记以及产生所述声音信号的音源主体的标识信息；所述声音信号由所述移动终端对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体与预存的用户信息相配时，基于时间轴记录；

对准同步模块，用于基于所述声音信号的时间轴标记，将各音源主体产生的所述声音信号在时间轴上进行对准和同步；

声音信号合并模块，用于基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号。

第五方面，提供了一种移动终端，该移动终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面提供的声音信号处理方法的步骤。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的声音信号处理方法的步骤。

第七方面，提供了一种服务器，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第二方面提供的声音信号处理方法的步骤。

第八方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面提供的声音信号处理方法的步骤。

在本发明实施例中，移动终端通过对接收到的声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配，并仅当音源主体与预存的用户信息相匹配时记录声音信号，进而将声音信号及与其相对应的时间轴标记和音源主体的标识信息发送至服务器，供服务器进行进一步处理，例如服务器可以依据音源主体的标识信息识别各音源主体产生的声音信号，并可将多个音源主体产生的声音信号在时间轴上进行对准和同步，进而合并得到合并音频信号。因此，本发明实施例中，可以识别各音源主体产生的声音信号，即使有多人发言也能准确的分辨并清晰的记录，从而能够同时处理多路声音信号，满足用户的使用需求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明在多人会议场景下应用的一个实施例的示意图；

图2是本发明提供的应用于移动终端的声音信号处理方法的流程示意图；

图3是本发明提供的应用于服务器的声音信号处理方法的流程示意图；

图4是本发明在多人会议场景下应用的又一个实施例的示意图；

图5是本发明在多人会议场景下应用的再一个实施例的示意图；

图6是本发明在多人唱歌场景下应用的一个实施例的示意图；

图7是本发明在多人唱歌场景下应用的又一个实施例的示意图；

图8是本发明提供的一种移动终端的结构示意图；

图9是本发明提供的一种服务器的结构示意图；

图10是本发明提供的又一种移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例的技术方案，由至少一台移动终端100与服务器200之间的通信交互实现。其中，移动终端100可以具体为智能手机、平板电脑、笔记本电脑或电纸书等，其主要作用在于收集音源主体发出的声音信号，并按照本申请实施例提供的声音信号处理方法进行处理后发送到服务器。服务器200既可以采用专门的计算机作为服务器，也可以选用运行性能满足要求的移动终端充当服务器，只要能够按照本申请实施例提供的声音信号处理方法接收各移动终端发送来的声音信号等相关数据，并进行汇总处理即可。在一种场景下，同一台设备，可以既充当移动终端100，又充当服务器200，只要能够实现本申请实施例提供的语音处理方法即可。

在图1所示的实施例中，移动终端100与服务器200之间可以通过网关300进行通信。在一种应用场景中(具体为多人会议)，多名与会者(例如与会者001、与会者003、与会者005)用自己的移动终端(例如，智能手机)进入会议系统，这些移动终端同时连接到一个局域网实现会议信息的同步。具体地，这一局域网可以由网关建立，既可以采用专门的网关设备、无线路由器等建立，也可以通过与会者所持的某一台移动终端模拟的wifi热点建立。除此之外，提供局域网的专用设备或者终端，还可以同时作为数据处理的核心设备，即图1所示示例中的服务器200。

以下先以多人会议这一应用场景为主，详细说明本申请实施例提供的声音信号处理方法在多个方面的具体实施。

参见图2所示，本发明实施例提供的一种声音信号处理方法，应用于与会者持有的移动终端，具体包括：

步骤101：当接收到声音信号时，对声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配。

需要说明的是，在执行步骤101之前，持有移动终端的用户(可以理解为该拥有该移动终端或者临时配备有该移动终端的与会者)可以通过功能按钮、触摸操作等预设操作，触发与本发明实施例提供的声音信号处理方法相对应的应用程序或者功能模块。对应的应用程序或者功能模块被触发后，移动终端将处于监听声音信号的状态。若未接收到声音信号，则移动终端将持续监听，直至用户退出或关闭对应的应用程序或者功能模块。

当移动终端接收到声音信号时，可以对声音信号进行声纹识别，以便确定发出声音信号的音源主体是否与预存的用户信息相匹配。声纹(Voiceprint)，是指用电声学仪器显示的携带言语信息的声波频谱。可以理解到，人在讲话、唱歌时使用的发声器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面的个体差异很大，所以任何两个人的声纹图谱都有差异。因此，通过对声音信号进行声纹识别，就能够分辨发出声音信号的音源主体，进而对音源主体与移动终端中预存的用户信息是否相匹配做出判断。本申请实施例中所称的声纹识别的具体算法，采用常规的特征提取和模式识别算法即可，例如，模板匹配方法，最近邻方法，神经网络方法，隐式马尔可夫模型(HMM)方法，VQ聚类方法，多项式分类器方法等。

需要说明的是，在执行步骤101之前，还应有在移动终端中预存用户信息的步骤。具体的，在移动终端中，至少需要预存用户的声纹信息，以便与接收到的声音信号对应的声纹进行比较，确定发出声音信号的音源主体是否与预存的用户信息相匹配。在移动终端中，还可以保存用户的身份信息、职位信息、头像等。

在执行步骤101之后，若发出声音信号的音源主体与预存的用户信息不相匹配，可以理解为该音源主体并非移动终端需要记录的声音信号，则移动终端可以放弃对该声音信号的记录，而恢复到监听状态，等待接收新的声音信号。

需要说明的是，在放弃对某声音信号的记录之后，若该声音信号持续产生，移动终端也可能持续接收到该声音信号。因此，除了接收到声音信号这一触发条件之外，移动终端也可以周期性的对接收到的声音信号进行声纹识别，以便确定该声音信号是否来自于与预存的用户信息相匹配的音源主体。

步骤103：当音源主体与预存的用户信息相匹配时，基于时间轴记录声音信号。

移动终端经过步骤101的判断，当发出声音信号的音源主体与移动终端中预存的用户信息相匹配时，表示该音源主体发出的声音信号需要由本移动终端进行记录，则移动终端基于时间轴对接收到的声音信号进行记录。

在很多场景下，例如在多人会议中，时常会有两个或两个以上的与会者发言，虽然移动终端可以通过声纹识别确定是否记录声音信号，但是，混杂在一起的声音信号同样会影响记录效果。即使与会者可以将自己配备的移动终端靠近自己，使得终端收录到自己的声音信号最大，但环境噪声和其他与会者的发言仍然会难以避免的被记录。因此，优选在基于时间轴记录声音信号时，对声音信号进行降噪处理，再基于时间轴记录经过降噪处理的声音信号。

更具体地，在对声音信号进行降噪处理时，优选滤除声音信号中与预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号。其中，其他信号包括环境噪声以及与预存的用户信息不相匹配的音源主体发出的声音信号。如此一来，移动终端中将只记录所对应的与会者的发言信息，记录的声音信号也将更清晰，有利于进行后续的声音信号处理。

需要说明的是，当音源主体与预存的用户信息相匹配时，除了基于时间轴记录相匹配的音源主体(也就是与移动终端相对应的与会者)发出的声音信号之外，还可以通过语音识别技术，将音源主体发出的声音信号转换成相对应的文字信息，并进而将文字信息、声音信号的时间轴标记和音源主体的标识信息发送至服务器。这就可以更多元化的记录音源主体的声音信号，更全面的反映声音信号所对应的信息内容。

在此基础上，服务器也能接收多个移动终端发送的文字信息、声音信号的时间轴标记和音源主体的标识信息之后，基于音源主体的标识信息，显示该音源主体所对应的文字信息。具体地，服务器可以推送到专门的显示界面显示，也可以推送到与会者所配备的移动终端显示。

步骤105：将声音信号、声音信号的时间轴标记以及音源主体的标识信息发送至服务器，供服务器对声音信号进行处理。

可以理解到，有多个移动终端会将所记录的声音信号连同对应的时间轴标记和音源主体的标识信息发送至服务器，服务器可以在接收到多路声音信号后进行合并处理，得到合并音频信号。移动终端进而接收服务器对声音信号进行处理得到的合并音频信号，并可播放合并音频信号。此种方式可以对多人会议的整体发言情况和讨论过程进行汇总和回顾，满足用户的使用需求。

与以上实施例相对应的，本申请实施例还提供一种声音信号处理方法，应用于与上述移动终端进行通信的服务器，参见图3所示，包括：

步骤201：接收移动终端发送来的声音信号、声音信号的时间轴标记以及产生声音信号的音源主体的标识信息；声音信号由移动终端对声音信号进行声纹识别，确定发出声音信号的音源主体与预存的用户信息相配时，基于时间轴记录；

步骤203：基于声音信号的时间轴标记，将各音源主体产生的声音信号在时间轴上进行对准和同步；

步骤205：基于时间轴，将各音源主体产生的声音信号进行合并，得到合并音频信号。

可以理解到，服务器可以接收多个移动终端分别记录的声音信号，各移动终端发送的声音信号可通过其所携带的音源主体的标识信息加以区分。执行步骤203时，基于声音信号的时间轴标记，服务器可将各移动终端发送来的声音信号在时间轴上进行对准和同步，使得同一时间点的声音信号对齐。在此基础上，基于时间轴，将各音源主体产生的声音信号在每个时间点上进行叠加，实现声音信号的合并，得到合并音频信号。服务器可以保存该合并音频信号，还可以将合并音频信号推送到各移动终端或者特定的移动终端进行播放或者展示。

优选地，为了使得经过服务器合并处理的合并音频信号在需要时还能再分离，例如进行声道分离处理，可以在服务器中为不同的音源主体分配不同的音轨，使得不同的音源主体产生的声音信号可以记录在不同的音轨上。在此基础上，执行步骤205时可以根据音源主体的标识信息，确定该音源主体产生的声音信号所对应的音轨；进而基于时间轴，将声音信号记录在所对应的音轨上。

可以理解到，按照上述方式进行合并处理得到的合并音频信号，可以在用户需要时进一步基于声音信号所对应的音轨，对合并音频信号进行声道分离处理，以便将不同音源主体发出的声音信号分离到不同的声道进行播放。

图4给出了本发明实施例在多人会议这一场景下的应用示例。在图4所示系统中，发言人(与会者之一)所配备的移动终端可以应用声纹识别技术，对发言人本人的身份信息进行识别并记录发言人本人的声音信号。参见图5所示，与会者B所配备的移动终端，可以利用声纹识别技术，从A、B、C三个与会者中分辨出与会者B发出的声音信号，确定与会者B这一音源主体为与移动终端中预存的用户信息相匹配。在此基础上，移动终端可以进一步将与会者B的个人信息上传服务器并显示在会议系统界面上，参见图4所示，使得所有与会者都可以看到与会者的个人信息。

各与会者的移动终端对所对应的与会者的声音信号(此场景下具体化为发言人发出的语音信号)进行记录之后，可以分别将记录的声音信号、与会者(也就是声音信号的音源主体)的身份标识信息、以及对应的时间轴标识信息一并发送到服务器。服务器接收到各终端发送的上述信息后，可基于语音信号的时间轴标记，将各与会者发出的语音信号在时间轴上进行对准和同步，进而进行合并得到合并音频信号。可以理解到，移动终端可以对接收到的语音信号进行降噪处理，滤除环境噪声和接收到的其他与会者发出的声音信号。

除此之外，移动终端还可以通过语音识别技术，将接收到的声音信号(此场景下具体化为发言人发出的语音信号)转换成相应的文字信息，从而可以将该发言人的发言内容也发送到服务器，显示在会议系统界面。会议系统界面上的具体显示方式，可以按照预设的排版格式，在与会者的个人信息之后、结合与会者发言的时间信息一并显示。依次类推，每个发言人的个人信息、发言内容和对应的时间信息都能通过自己的移动终端传送到服务器上，按照时间顺序进行先后排序后，推送到会议系统的界面和/或每个与会者的终端上进行显示。进一步地，这些信息上传到服务器后，服务器还可以根据发言人的个人信息和发言的时间顺序，对发言的文字信息和/或声音信号进行整理和分类，在会后发给每个与会者进行确认。

图6给出了本发明实施例在多人唱歌这一场景下的应用示例。在图6所示系统中，各参与者分别配备一移动终端(以具体化为智能手机为例)，多个手机用户分别进入智能K歌合唱系统。需要说明的是，这些用户可以处于同一个局域网或者通过互联网连接到同一个远程服务器，以便实现数据同步。

在进入上述智能K歌系统后，每个用户的手机麦克风都开始工作，使得手机得以接收并记录到用户发出的声音信号(此场景中具体化为歌声信号)。在歌曲伴奏开始后，每个用户可以按照歌词顺序先后进行K歌或进行合唱，每个手机用户的手机在监测到歌声信号后，利用手机的声纹识别功能，可以确定接收到的歌声信号所对应的歌唱者与预存的用户信息是否相匹配。当歌唱者与预存的用户信息相匹配时，手机可以实时采集该用户的歌声并上传到K歌系统的远程服务器。每个用户的手机识别到该用户的个人信息后，还可以将用户的个人信息连同歌声信号和歌声信号的时间轴标记通过手机天线上传到远程服务器。可以理解到，手机在向服务器发送歌声信号之前，优选对接收到的声音信号进行降噪处理，滤除所对应的用户发出的歌声信号之外的其他信号，例如环境噪声和其他歌唱者发出的歌声信号等。

服务器接收到各歌唱者的手机发送的歌声信号后，可以按各用户的标识信息对接收到的歌声信号进行区分，并基于时间轴标记对各用户的歌声信号进行对准和同步。需要说明的是，此场景中，还可以基于歌曲本身的伴奏信号确定时间轴，将不同歌唱者的歌声信号与同一个伴奏信号进行时间轴上的对准和同步。进而，服务器可将多名歌唱者歌声信号(还可加上歌曲的伴奏信号)合并为合并音频信号(此场景中具体化为合并歌唱信号)。

优选地，还可以对不同的歌唱者或伴奏信号(可以将伴奏信号的发出者理解为一特定的、固定存在的音源主体)预设不同的音轨，从而远程服务器可以依据预先设置的音轨分配方案，将不同的歌唱者发出的歌声信号记录在不同的音轨，或者将不同特征的歌唱者(例如，按性别划分，按年龄划分，按声部划分，等等)发出的歌声信号记录在不同的音轨，参见图7所示，以便可以对合并音频信号进行后期处理，例如，分离为左声道和右声道，在播放时形成环绕立体声的音效，等等。

可以理解到，除以上举例的多人会议和多人K歌之外，本发明实施例还可适用于乐器合奏、群口相声、多人诗词朗诵等多种场景。在阐述本发明实施例的多方面具体实施时所举例的应用场景，并不构成对本发明实施例适用场景的限定。

参见图8所示，本发明实施例还提供了一种移动终端，包括：

声纹识别模块11，用于当接收到声音信号时，对声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配；

声音信号记录模块13，用于当音源主体与预存的用户信息相匹配时，基于时间轴记录声音信号；

声音信号发送模块15，用于将声音信号、声音信号的时间轴标记以及音源主体的标识信息发送至服务器，供服务器对声音信号进行处理。

优选地，上述声音信号记录模块13，可具体包括：

降噪单元，用于当音源主体与移动终端中预存的用户信息相匹配时，对声音信号进行降噪处理；

声音信号记录单元，用于基于时间轴记录经过降噪处理的声音信号。

优选地，上述降噪单元可具体用于滤除声音信号中与预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号；其他信号包括环境噪声以及与预存的用户信息不相匹配的音源主体发出的声音信号。

优选地，上述移动终端还可包括：

声音信号转换模块，用于通过语音识别，将声音信号转换成相对应的文字信息；

文字信息发送模块，用于将文字信息、声音信号的时间轴标记和音源主体的标识信息发送至服务器。

优选地，上述移动终端还可包括：

合并信号接收模块，用于接收服务器对声音信号进行处理得到的合并音频信号。

优选地，上述移动终端还可包括：

播放模块，用于播放合并音频信号。

本发明实施例提供的移动终端能够实现上述声音信号处理方法的方法实施例中移动终端实现的各个过程，为避免重复，这里不再赘述。

参见图9所示，本发明实施例还提供一种服务器，包括：

声音信号接收模块21，用于接收移动终端发送来的声音信号、声音信号的时间轴标记以及产生声音信号的音源主体的标识信息；声音信号由移动终端对声音信号进行声纹识别，确定发出声音信号的音源主体与预存的用户信息相配时，基于时间轴记录；

对准同步模块23，用于基于声音信号的时间轴标记，将各音源主体产生的声音信号在时间轴上进行对准和同步；

声音信号合并模块25，用于基于时间轴，将各音源主体产生的声音信号进行合并，得到合并音频信号。

优选地，上述服务器还可包括：

音轨确定模块，用于根据音源主体的标识信息，确定该音源主体产生的声音信号所对应的音轨；

声音信号记录模块，用于基于时间轴，将声音信号记录在所对应的音轨上。

优选地，上述服务器还可包括：

声道分离模块，用于基于声音信号所对应的音轨，对合并音频信号进行声道分离处理。

优选地，上述服务器还可包括：

合并信号发送模块，用于将合并音频信号发送到移动终端。

优选地，上述服务器还可包括：

文字信息接收模块，用于接收移动终端发送的文字信息、声音信号的时间轴标记和音源主体的标识信息，文字信息由移动终端通过语音识别，根据声音信号转换得到；

文字信息显示模块，用于基于音源主体的标识信息，显示该音源主体所对应的文字信息。

本发明实施例提供的服务器能够实现上述声音信号处理方法的方法实施例中服务器实现的各个过程，为避免重复，这里不再赘述。

在本发明实施例中，移动终端通过对接收到的声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配，并仅当音源主体与预存的用户信息相匹配时记录声音信号，进而将声音信号及与其相对应的时间轴标记和音源主体的标识信息发送至服务器。服务器在处理时，可以识别各音源主体产生的声音信号，并可将多个音源主体产生的声音信号在时间轴上进行对准和同步，进而合并得到合并音频信号。因此，本发明实施例中，可以识别各音源主体产生的声音信号，即使有多人发言也能准确的分辨并清晰的记录，从而能够同时处理多路声音信号，满足用户的使用需求。

图10为实现本发明各个实施例的一种移动终端的硬件结构示意图，

该移动终端700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图10中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器710，用于：

当接收到声音信号时，对声音信号进行声纹识别，确定发出声音信号的音源主体是否与预存的用户信息相匹配；

当音源主体与预存的用户信息相匹配时，基于时间轴记录声音信号；

将声音信号、声音信号的时间轴标记以及音源主体的标识信息发送至服务器，供服务器对声音信号进行处理。

应理解的是，本发明实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

移动终端通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与移动终端700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

移动终端700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在移动终端700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图10中，触控面板7071与显示面板7061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与移动终端700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端700内的一个或多个元件或者可以用于在移动终端700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

移动终端700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，移动终端700包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种移动终端，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述声音信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述声音信号处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

还需要说明的是，本申请实施例还提供一种服务器，在硬件构成上与图10所示的移动终端的硬件构成可以相同，区别主要在于，服务器所包含的处理器，用于：

接收移动终端发送来的声音信号、声音信号的时间轴标记以及产生声音信号的音源主体的标识信息；声音信号由移动终端对声音信号进行声纹识别，确定发出声音信号的音源主体与预存的用户信息相配时，基于时间轴记录；

基于声音信号的时间轴标记，将各音源主体产生的声音信号在时间轴上进行对准和同步；

基于时间轴，将各音源主体产生的声音信号进行合并，得到合并音频信号。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种声音信号处理方法，其特征在于，包括：

当所述音源主体与所述预存的用户信息相匹配时，基于时间轴记录所述声音信号，其中，所述当所述音源主体与所述预存的用户信息相匹配时，基于时间轴记录所述声音信号的步骤，包括：当所述音源主体与移动终端中预存的用户信息相匹配时，对所述声音信号进行降噪处理；基于所述时间轴记录经过所述降噪处理的声音信号，其中，所述对所述声音信号进行降噪处理的步骤，包括：滤除所述声音信号中与所述预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号；所述其他信号包括环境噪声以及与所述预存的用户信息不相匹配的音源主体发出的声音信号；

将所述声音信号、所述声音信号的时间轴标记以及所述音源主体的标识信息发送至服务器，供所述服务器对所述声音信号进行处理；

接收所述服务器对所述声音信号进行处理得到的合并音频信号，所述合并音频信号将多个音源主体产生的声音信号在时间轴上进行对准和同步进而合并得到的，在所述合并音频信号中不同的音源主体产生的声音信号被记录在不同的音轨上。

2.如权利要求1所述的方法，其特征在于，当所述音源主体与预存的用户信息相匹配时，所述方法还包括：

通过语音识别，将所述声音信号转换成相对应的文字信息；

将所述文字信息、所述声音信号的时间轴标记以及所述音源主体的标识信息发送至所述服务器。

3.一种声音信号处理方法，其特征在于，包括：

接收移动终端发送来的声音信号、所述声音信号的时间轴标记以及产生所述声音信号的音源主体的标识信息；所述声音信号由所述移动终端对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体与预存的用户信息相配时，基于时间轴记录，其中，当所述音源主体与移动终端中预存的用户信息相匹配时，对所述声音信号进行降噪处理，基于所述时间轴记录经过所述降噪处理的声音信号，其中，所述对所述声音信号进行降噪处理的步骤，包括：滤除所述声音信号中与所述预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号；所述其他信号包括环境噪声以及与所述预存的用户信息不相匹配的音源主体发出的声音信号；

基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号；

在所述基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号的步骤之前，所述方法还包括：

根据所述音源主体的标识信息，确定该音源主体产生的声音信号所对应的音轨；基于所述时间轴，将所述声音信号记录在所对应的音轨上。

4.如权利要求3所述的方法，其特征在于，在所述基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号的步骤之后，所述方法还包括：

基于所述声音信号所对应的音轨，对所述合并音频信号进行声道分离处理。

5.如权利要求3或4所述的方法，其特征在于，在所述基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号的步骤之后，所述方法还包括：

将所述合并音频信号发送到所述移动终端。

6.如权利要求3或4所述的方法，其特征在于，所述方法还包括：

接收所述移动终端发送的文字信息、所述声音信号的时间轴标记和所述音源主体的标识信息，所述文字信息由所述移动终端通过语音识别，根据所述声音信号转换得到；

基于所述音源主体的标识信息，显示该音源主体所对应的文字信息。

7.一种移动终端，其特征在于，包括：

声音信号记录模块，用于当所述音源主体与所述预存的用户信息相匹配时，基于时间轴记录所述声音信号，其中，所述声音信号记录模块，包括：降噪单元，用于当所述音源主体与移动终端中预存的用户信息相匹配时，对所述声音信号进行降噪处理；声音信号记录单元，用于基于所述时间轴记录经过所述降噪处理的声音信号，所述降噪单元，具体用于滤除所述声音信号中与所述预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号；所述其他信号包括环境噪声以及与所述预存的用户信息不相匹配的音源主体发出的声音信号；

声音信号发送模块，用于将所述声音信号、所述声音信号的时间轴标记以及所述音源主体的标识信息发送至服务器，供所述服务器对所述声音信号进行处理；

合并信号接收模块，用于接收所述服务器对所述声音信号进行处理得到的合并音频信号，所述合并音频信号将多个音源主体产生的声音信号在时间轴上进行对准和同步进而合并得到的，在所述合并音频信号中不同的音源主体产生的声音信号被记录在不同的音轨上。

8.如权利要求7所述的移动终端，其特征在于，所述移动终端还包括：

声音信号转换模块，用于通过语音识别，将所述声音信号转换成相对应的文字信息；

文字信息发送模块，用于将所述文字信息、所述声音信号的时间轴标记和所述音源主体的标识信息发送至所述服务器。

9.如权利要求8所述的移动终端，其特征在于，所述移动终端还包括：

播放模块，用于播放所述合并音频信号。

10.一种服务器，其特征在于，包括：

声音信号接收模块，用于接收移动终端发送来的声音信号、所述声音信号的时间轴标记以及产生所述声音信号的音源主体的标识信息；所述声音信号由所述移动终端对所述声音信号进行声纹识别，确定发出所述声音信号的音源主体与预存的用户信息相配时，基于时间轴记录，其中，当所述音源主体与移动终端中预存的用户信息相匹配时，对所述声音信号进行降噪处理，基于所述时间轴记录经过所述降噪处理的声音信号，其中，所述对所述声音信号进行降噪处理的步骤，包括：滤除所述声音信号中与所述预存的用户信息相匹配的音源主体发出的声音信号之外的其他信号；所述其他信号包括环境噪声以及与所述预存的用户信息不相匹配的音源主体发出的声音信号；

声音信号合并模块，用于基于所述时间轴，将各音源主体产生的所述声音信号进行合并，得到合并音频信号；

音轨确定模块，用于根据所述音源主体的标识信息，确定该音源主体产生的声音信号所对应的音轨；

声音信号记录模块，用于基于所述时间轴，将所述声音信号记录在所对应的音轨上。

11.如权利要求10所述的服务器，其特征在于，所述服务器还包括：

声道分离模块，用于基于所述声音信号所对应的音轨，对所述合并音频信号进行声道分离处理。

12.如权利要求10或11所述的服务器，其特征在于，所述服务器还包括：

合并信号发送模块，用于将所述合并音频信号发送到所述移动终端。

13.如权利要求10或11所述的服务器，其特征在于，所述服务器还包括：

文字信息接收模块，用于接收所述移动终端发送的文字信息、所述声音信号的时间轴标记和所述音源主体的标识信息，所述文字信息由所述移动终端通过语音识别，根据所述声音信号转换得到；

文字信息显示模块，用于基于所述音源主体的标识信息，显示该音源主体所对应的文字信息。

14.一种移动终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至2中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的方法的步骤。

16.一种服务器，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求3至6中任一项所述的方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求3至6中任一项所述的方法的步骤。