CN110677377B

CN110677377B - 录音处理、播放方法、装置、服务器、终端及存储介质

Info

Publication number: CN110677377B
Application number: CN201810717358.4A
Authority: CN
Inventors: 李�杰
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2022-03-04
Anticipated expiration: 2038-07-03
Also published as: WO2020007192A1; CN110677377A

Abstract

本发明实施例提供一种录音处理、播放方法、装置、服务器、终端及存储介质，由于服务器对N端通话中N个通话端的独立通话音频数据进行优化处理所依据的混音处理规则是根据对象的对象特征信息生成的，因此得到的优化录音数据与对象特征信息有关，当对象不同时，根据混音规则对原始音频数据进行优化处理得到的优化录音数据也就不会完全一样。针对同样的原始音频数据，可以处理得到优化倾向不同的优化录音数据，让用户得以从不同的“角度”来回放倾听N端通话录音，从而更加全面、清楚地了解N端通过的通话信息。另外，由于能够让用户听不不一样的效果，因此这也在很大程度上提升了录音的趣味性。

Description

录音处理、播放方法、装置、服务器、终端及存储介质

技术领域

本发明涉及多媒体领域，尤其涉及录音处理、播放方法、装置、服务器、终端及存储介质。

背景技术

录音，在人们的日常生活与日常工作当中是非常常见的留存信息的方式：例如作家利用录音笔记录采访对象的言谈，并在写作过程中通过回访录音以更深入地揣摩人物心思；例如通过录音向自己的亲人、朋友传达信息，让亲人朋友不仅可以通过录音了解到对应的信息，而且还能体会到录音者的感情；又例如公司在同客户进行电话会议时记录通话内容，这样即便是客户在电话会议期间提出了大量的要求或细节信息，公司也能够通过回访录音的方式确定客户的期望。现在录音功能已经属于智能终端的基础功能了，无论任何时候，只要用户有录音需求，都可以控制启动录音功能进行录音。例如，在用户进行多方通话时，如果用户需要采用录音功能来辅助记录会议信息，就可以直接在通话界面打开录音功能。

现有技术中，智能终端都是通过DSP(信号处理器)获取上下行音频数据，然后对上下行音频数据进行混音融合得到音频文件，然后保存在智能终端的存储器中。由于现有这种录音过程中并不存在对音频数据的优化处理，因此得到的音频文件效果可能会比较差，使得用户在回放录音得到的音频文件时，用户体验差。

发明内容

本发明实施例提供的录音处理、播放方法、装置、服务器、终端及存储介质，主要解决的技术问题是：解决现有录音方案中因为不会对录音音频文件进行处理，导致录音音频文件的播放效果差，用户体验不高的问题。

为解决上述技术问题，本发明实施例提供一种录音处理方法，包括：

获取对象的对象特征信息；

根据对象特征信息生成混音处理规则；

根据混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据，原始音频数据中包括N端通话中N个通话端的独立通话音频数据，N大于等于2；

将优化录音数据发送给终端。

可选地，对象特征信息包括基础对象特征信息和/或主题对象特征信息，基础对象特征信息包括对象当前的生理信息和/或社会信息；主题对象特征信息为对象在N端通话的通话主题下的对象特征信息。

可选地，对象特征信息包括基础对象特征信息，获取对象的基础对象特征信息包括：

接收终端发送的录音优化指令；

从录音优化指令中提取对象的基础对象特征信息。

可选地，对象特征信息包括主题对象特征信息，获取对象的主题对象特征信息包括：

根据时间轴对原始音频数据中各通话端的通话音频数据进行融合生成预混音音频数据；

对预混音音频数据进行语义识别；

根据语义识别结果确定对象的主题对象特征信息。

可选地，根据语义识别结果确定对象的主题对象特征信息包括：

根据语义识别结果确定本次N端通话的通话主题和/或通话关键词；

根据通话主题和/或通话关键词确定对对象而言重要程度达到预设阈值的信息作为主题对象特征信息。

可选地，优化录音数据中包括至少一个优化音频片段；混音处理规则中包括对原始音频数据中原始音频片段进行优化处理以得到优化音频片段的优化处理方式；根据混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据包括：

根据混音处理规则中原始音频片段对应的优化处理方式对原始音频片段进行处理得到对应的优化音频片段。

可选地，优化处理方式包括以下几种中的至少一种：

提高/降低至少一个通话端的通话音频数据的播放音量后，根据时间轴对各通话端的通话音频数据进行融合处理；

增加/降低原始音频数据的播放速度；

确定各通话端与其他通话端在时间轴上出现内容重叠的重叠音频数据，并根据对原始音频数据的语义识别结果将各通话端的重叠音频数据依次独立分解到优化录音数据的时间轴上。

可选地，录音处理方法还包括：将混音处理规则发送给终端。

本发明实施例还提供一种录音播放方法，包括：

获取对象的对象特征信息，并将对象特征信息发送给服务器；

接收服务器发送的优化录音数据，优化录音数据由服务器根据对象特征信息生成混音处理规则后，根据混音处理规则对原始音频数据进行处理得到，原始音频数据中包括N端通话中N个通话端的独立通话音频数据，N大于等于2；

可选地，对优化录音数据进行播放之前，还包括：接收服务器发送的针对预混音音频数据进行语义识别得到的语义识别结果，预混音音频数据根据时间轴对原始音频数据中各通话端的通话音频数据进行融合生成；

对优化录音数据进行播放的同时，还包括：根据优化录音数据的时间轴同步显示与当前播放音频数据对应的语义识别结果内容。

可选地，优化录音数据中包括至少一个优化音频片段；对优化录音数据进行播放包括：

显示与优化录音数据中各优化音频片段对应的音频选择控件；

通过显示屏接收针对音频选择控件的选择指令；

播放音频选择控件对应的优化音频片段。

可选地，对优化录音数据进行播放之前，还包括：接收服务器发送的与优化录音数据对应的混音处理规则，混音处理规则中包括优化起止时间以及对优化起止时间内的原始音频数据进行优化处理的方式；

显示与优化录音数据中各优化音频片段对应的音频选择控件包括：

根据优化起止时间在预混音音频数据的播放时间轴上标记显示各优化音频片段对应的音频选择控件。

可选地，音频选择控件上显示有对应优化音频片段对应的关键词。

本发明实施例还提供一种录音处理装置，包括：

信息获取模块，用于获取对象的对象特征信息；

规则生成模块，用于根据对象特征信息生成混音处理规则；

优化处理模块，用于根据混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据，原始音频数据中包括N端通话中N个通话端的独立通话音频数据，N大于等于2；

录音发送模块，用于将优化录音数据发送给终端。

本发明实施例还提供一种录音播放装置，其特征在于，包括：

信息发送模块，用于获取对象的对象特征信息，并将对象特征信息发送给服务器；

录音接收模块，用于接收服务器发送的优化录音数据，优化录音数据由服务器根据对象特征信息生成混音处理规则后，根据混音处理规则对原始音频数据进行处理得到，原始音频数据中包括N端通话中N个通话端的独立通话音频数据，N大于等于2；

录音播放模块，用于对优化录音数据进行播放。

本发明实施例还提供一种服务器，服务器包括第一处理器、第一存储器及第一通信总线；

第一通信总线用于实现第一处理器和第一存储器之间的连接通信；

第一处理器用于执行第一存储器中存储的一个或者多个程序，以实现如上任一项的录音处理方法的步骤。

本发明实施例还提供一种终端，终端包括第二处理器、第二存储器及第二通信总线；

第二通信总线用于实现第二处理器和第二存储器之间的连接通信；

第二处理器用于执行第二存储器中存储的一个或者多个程序，以实现如上任一项的录音播放方的步骤。

本发明实施例还提供一种存储介质，存储介质存储有录音处理程序和/或录音播放程序，录音处理程序可被一个或者多个处理器执行，以实现如上任一项的录音处理方法的步骤；录音播放程序可被一个或者多个处理器执行，以实现如上任一项的录音播放方法的步骤。

本发明的有益效果是：

本发明实施例提供的录音处理、播放方法、装置、服务器、终端及存储介质，在根据N端通话过程中N个通话端的独立通话音频数据生成录音音频文件时，服务器会先获取对象的对象特征信息，然后根据对象特征信息生成混音处理规则，并根据混音处理规则对包括N端通话中N个通话端的独立通话音频数据的原始音频数据进行处理得到优化录音数据，再将优化录音数据发送给终端，让终端将优化录音数据播放给用户。由于本发明实施例提供的录音处理方法中，服务器对N端通话中N个通话端的独立通话音频数据进行优化处理所依据的混音处理规则是根据对象的对象特征信息生成的，因此得到的优化录音数据与对象特征信息有关，当对象不同时，生成混音处理规则的对象特征信息就会有所不同，因此混音规则也会有所不同，在这种情况下，根据混音规则对原始音频数据进行优化处理得到的优化录音数据也就不会完全一样。故，本发明实施例提供的方案中，针对同样的原始音频数据，可以处理得到优化倾向不同的优化录音数据，让用户得以从不同的“角度”来回放倾听N端通话录音，从而更加全面、清楚地了解N端通过的通话信息。另外，由于可以依据不同的对象对同样的原始音频数据进行优化处理，因此，能够让用户听不不一样的效果，这也在很大程度上提升了录音的趣味性。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明实施例一中提供的录音处理方法的一种流程图；

图2为本发明实施例一中示出的三端通话的一种示意图；

图3为本发明实施例一中提供的获取对象主题对象特征信息的一种流程图；

图4为本发明实施例一中示出的原始音频数据时间轴上各音频片段及对应优化处理方式的一种示意图；

图5为本发明实施例一中示出的三端通话音频数据的音频波形图；

图6为本发明实施例一中示出的优化录音数据的音频波形图；

图7为本发明实施例二中提供的录音播放方法的一种流程图；

图8为本发明实施例二中提供的终端播放优化录音数据的一种流程图；

图9为本发明实施例二中提供的终端的一种显示界面示意图；

图10为本发明实施例三中提供的录音优化系统的一种结构示意图；

图11为本发明实施例三中提供的录音处理方案与录音播放方案中终端与服务器侧的交互图；

图12为本发明实施例四中提供的录音处理装置的一种结构示意图；

图13为本发明实施例五中提供的录音播放装置的一种结构示意图；

图14为本发明实施例六中提供的服务器的一种硬件结构示意图；

图15为本发明实施例六中提供的终端的一种硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了解决现有技术中录音方案因为不对通话录音进行优化处理，因此容易导致录音音频文件的播放效果差，用户体验不高的问题，本实施例提供一种录音处理方法，该录音处理方法可以由服务器来实施；但可以理解的是，在本实施例的其他一些示例当中，如果终端具备足够的能力，也可以采用终端来实现该录音处理方法。本实施例中以服务器实现该录音处理方法为例进行介绍，请参见图1：

S102：服务器获取对象的对象特征信息。

在本实施例中，所谓对象是指当前需要听取录音的对象。可以理解的是，服务器在对原始音频数据进行优化时，存在无数种优化处理方式，不同的优化处理方式所优化出来的优化录音数据不同。这主要体现在不同优化录音数据中突出的重点不同，适合的收听对象不同。所以，服务器在对原始音频数据进行处理时，优化的倾向/方向可以不同，这样，可以使得最终优化出来的优化录音数据可以适合不同的对象。可以理解的是，当根据对原始音频数据的优化处理倾向于某个对象时，得到的优化录音数据可能会更有利于该对象从优化录音数据中了解N端通话中的相关通话信息。这里的通话可以是指两端的通话，也可以是指三端甚至更多通话端的通话，因此，在本实施例中，N大于等于2。在本实施例中，对象可以由终端侧的用户确定，例如如果需要听取录音信息的是终端侧的用户，则用户可以将指定自己作为对象。但可以理解的是，对象也可以是除了用户以外的其他人。

假定当前有A、B、C三人在进行三方通话，图2所示，用户A是年龄为75岁的老人，用户B是20岁的外国留学生，用户C是40岁的房屋中介职员。A、B、C之间的三端通话主要是用户A和用户C在用户B的帮助下，了解用户C向用户A租赁房屋的相关事宜。三个通话端中的任意一个均可以对此次三端通话进行录音，这里假定由用户A控制自己的终端设备a对三端通话进行录音，则终端设备a就会采集上下行的通话音频数据。可以理解的是，为了便于后续处理，本实施例中终端设备a所采集的原始音频数据应该包括各自独立的三个通话音频数据，分别是终端设备a侧的上行通话音频数据a0，以及来自用户B的下行通话音频数据b0和来自用户C的通话音频数据c0。当用户A的录音结束后，其可以通过终端设备a将原始录音得到的原始音频数据发送给服务器，由服务器对原始音频数据进行优化处理。

在本实施例中用户可以指定自己作为对象，则服务器获取对象的对象特征信息时，就是获取用户A的特征信息。当然，如果用户A想要重点了解用户B在此次通话过程中所提及的各种信息，则用户A可以指定用户B作为此次录音优化处理的对象。另外，可以理解的是，通话录音不仅针对三端通话中的各个参与者，也可以是没有参与此次三端通话的其他对象需要听取通话录音信息，因此，在这种情况下，对象可能是除了A、B、C以外的其他人。例如，当用户A的儿子需要帮助自己的父亲处理租房事宜，则其可能需要了解此前的三端通话内容，则这种情况下，录音优化处理的对象就变成了用户D。

在本实施例中，对象特征信息包括对象的一些基础对象信息，例如姓名、工作、爱好等对象的社会信息，又例如对象的性别、年龄、听力状况等对象的生理信息。基础对象信息能够帮助服务器在一定程度上确定用于优化处理的混音处理规则：例如，如果对象的年龄较大，假定上述三端通话中的用户A作为该对象，则服务器应该可以确定需要对原始音频数据的播放速度调慢，以便老人能够理解通话内容。

在本实施例的另一些示例当中，对象特征信息包括主题对象特征信息，主题对象特征信息是指在此次通话的通话主题下对象的对象特征信息，表征了对象在此次通话中更感兴趣的一些信息。例如，在前述三端通话的通话主题下，对于用户A而言，其可能比较关注用户C的房屋租赁目的以及居住人数以及用户C的言谈素质等，因此，房屋租赁目的、房屋居住人数以及用户C的言谈信息就是当用户A作为对象时的主题对象特征信息。用户C则比较关注用户A的房屋情况、房屋价格等信息，则当将用户C指定为录音优化的对象时，主题对象特征信息就包括房屋情况、房屋价格。而用户B可能会比较关心用户A和用户C各自的成交意向、顾虑事项等，对应地，当用户B作为对象时，成交意向、顾虑事项即为其主题对象特征信息。

在本实施例的一些示例中，对象特征信息同时包括基础对象特征信息以及主题对象特征信息。所以，在这些示例当中，服务器获取对象的对象特征信息时，会获取对象的基础对象特征信息，也会获取对象的主题对象特征信息。

下面对服务器获取基础对象特征信息以及主题对象特征信息的方案进行简单介绍：

对于基础对象特征信息，可以由终端发送给服务器，例如在本实施例中，服务器可以通过接收终端发送的录音优化指令，然后从录音优化指令中提取出对象的基础对象特征信息。

下面结合对服务器获取主题对象特征信息的过程进行简单介绍，请参见图3示出的获取对象主题对象特征信息的一种流程图：

S302：根据时间轴对原始音频数据中各通话端的通话音频数据进行融合生成预混音音频数据。

由于”主题对象特征信息”指的是对象此次N端通话过程的通话主题下的特征信息，因此为了确定对象，服务器需要先了解此次N端通话的相关通话内容。而为了了解N端通话的相关通话内容，服务器通常会先将N个通话端独立的通话音频数据进行预混合(融合)生成预混音音频数据。

S304：对预混音音频数据进行语义识别。

得到预混音音频数据之后，服务器可以对该预混音音频数据进行语义识别，从而理解通话内容。可以理解的是，在本实施例中的服务器可以具备语义识别功能，也可以不具备语义识别功能。当服务器自身不具备语义识别功能时，其可以请求其他具备语义识别功能的服务器，例如语义识别服务器完成对预混音音频数据的语义识别过程。

S306：根据语义识别结果确定对象的主题对象特征信息。

在得到针对预混音音频数据的义识别结果之后，服务器可以根据语义识别结果确定针对对象的主题对象特征信息。可选地，服务器可以先根据语义识别结果确定出本次N端通话的通话主题和/或通话关键词，然后根据该通话主题和/或通话关键词确定对对象而言，重要程度达到预设阈值的信息作为主题对象特征信息。

S104：服务器根据对象特征信息生成混音处理规则。

在本实施例中，当服务器得到对象的对象特征信息后，可以根据对象特征信息生成混音处理规则。混音处理规则，顾名思义是需要对原始音频数据中N个通话端的独立通话音频数据进行混音的，也即需要根据时间轴将N个通话端的独立通话音频数据进行融合。不过在本实施例中，混音处理规则除了对原始音频数据中N个通话端的独立通话音频数据进行混音融合以外，还会对原始音频数据进行其他优化处理，以便对象更容易其感兴趣的信息，例如服务器通过突出对象所感兴趣的通话内容，或者根据对象的听觉能力加快或降低音频播放速度等。

在前面已经介绍过，对象特征信息中，基础对象特征信息能够帮助服务器确定例如录音音频的播放速度等基础处理信息。可以理解的是，除了播放速度基础处理信息还可以包括播放音量等。另外，基础对象特征信息中对象的工作、爱好等还可以进一步帮助确定对象对本次N端通话原始音频数据中感兴趣的部分。所以在本实施例的一种示例中，服务器可以根据基础对象特征信息和主题对象特征信息确定原始音频数据中哪些信息是对象感兴趣的。确定出对象感兴趣的内容后，服务器可以基于这些内容生成能够对这些内容进行突出的混音处理规则。

S106：服务器根据混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据。

服务器确定出混音处理规则之后，可以根据混音处理规则对原始音频数据中的各通话音频数据进行进行处理。混音处理规则中包括对原始音频数据进行优化处理以得到对应优化音频片段的优化处理方式。对于某一原始音频片段，服务器可以根据混音处理规则中与该原始音频片段对应的优化处理方式对其进行处理，从而得到对应的优化音频片段。可以理解的是，原始音频片段是原始音频数据中的一个部分，其可以通过时间来确定，例如原始音频数据的时间轴是从00:00到20:08，而其中一个原始音频片段是指原始音频数据中从00：32到06:48之间的音频数据。所以，在本实施例的一些示例中，混音处理规则中包括优化起止时间以及优化处理方式，其中，优化起止时间能够指定服务器对需要优化的原始音频片段，而优化处理方式则指定了对该优化音频片段的优化方式。例如，在图4中示出了原始音频数据的时间轴，该时间轴的起止时间分别是00:00和04:56，而服务器得到的混音处理规则中，包括两个优化起止时间，其中第一个优化起止时间是00:10～01:10(颗粒填充阴影区域)，对应的优化处理方式是优化处理方式一；而第二优化起止时间时02:03～02:59(斜线填充阴影区域)，对应的优化处理方式优化处理方式二。因此，服务器可以对介于00:10～01:10中的原始音频数据进行优化处理方式一的处理从而得到对应的优化音频片段1，并对介于02:03～02:59之间的原始音频数据进行优化处理方式二的处理从而得到优化音频片段2。

可以理解的是，在原始音频数据中，包括N个独立的通话音频数据，由于这N个通话音频数据都是由同一终端录制的，因此，录制的起止时间是相同的，也就是说这N个独立的通话音频数据具有相同的时间轴，例如，都是从00：～04:56。在本实施例中，有些优化处理方式是针对某个独立的通话音频数据中的某一段或某些段进行处理，而针对N端通话中其他通话端的通话音频数据却不做对应的处理；而有些处理又是针对原始音频数据中所有通话音频数据的。例如：为了突出某一通话端的通话内容时，服务器只需要对该通话端的通话音频数据的播放音量进行放大，在这种情况下，不会对其他通话端的通话音频数据也做相同的播放音量放大处理。而如果混音处理规则需要照顾对象对录音的听力理解能力，因此，需要指示服务器对音频数据的播放速度减慢，则这种处理就是针对全部的通话音频数据的，所以，服务器需要对每一个通话端的通话音频数据均进行播放速度的减慢，或者说服务器需要将各通话端的通话音频数据融合到一起后，对得到的音频数据的播放速度进行减慢。可见，在本实施例中，服务器根据混音处理规则对原始音频数据进行处理，有可能是对已经融合的原始音频数据进行处理，也有可能是对未经融合的独立通话音频数据进行处理。

下面对本实施例中中的优化处理方式进行介绍，混音处理规则中的优化处理方式可以包括以下几种中的至少一种：

第一种，提高/降低至少一个通话端的通话音频数据的播放音量后，根据时间轴对各通话端的通话音频数据进行融合处理。继续以服务器对前述三端通话的通话录音进行处理为例：原始音频数据中应该包括用户A的通话音频数据a0，用户B的通话音频数据b0，用户C的通话音频数据c0。根据前述示例的介绍可知，用户A的终端所采集到的通话音频数据a0，b0以及c0是相互独立的，也即在三端通话过程中，A、B、C三人所说的内容尚未根据时间轴融合到一起。所以服务器可以针对各通话端中的至少一个进行单独处理，例如对于对象A而言，其对自己的通话内容非常清楚，因此在回放录音的时候并不关注自己的通话内容，因此服务器可以降低用户A的通话音频数据a0的播放音量，或者说提高用户B与用户C的通话音频数据b0与c0的播放音量。另外，如果对象A比较关注用户C的通话内容，因此混音处理规则可以指示服务器对用户C的通话音频数据c0的播放音量进行放大处理，或者说，为了突出用户C的通话音频数据，服务器可以适当降低用户A与B的通话音频数据的播放音量。

第二种，增加/降低原始音频数据的播放速度。根据前面的介绍可知，服务器对原始音频数据的播放速度进行增加或者降低，针对的是原始音频数据中的各个通话音频数据，因此服务器根据该优化处理方式对原始音频数据进行优化处理的时候，可以分别先针对每一个通话音频数据优化起止时间中的音频数据进行处理，然后再将处理后的各通话音频数据进行融合混音。或者说将原始通话音频数据中的各通话音频数据先进行融合混音之后，再对优化起止时间中的音频数据进行播放速度的调整。

第三种，确定各通话端与其他通话端在时间轴上出现内容重叠的重叠音频数据，并根据对原始音频数据的语义识别结果将各通话端的重叠音频数据依次独立分解到优化录音数据的时间轴上。可以理解的是，在通话过程中，有可能出现在同一时间有两个或以上的用户说话的情况，这样各通话段的通话音频数据在时间轴上就会出现重叠，例如图5示出了通话音频数据a0，通话音频数据b以及通话音频数据c0的音频波形图，在时间轴上00：56～01:10之间，a0和b0两个通话音频数据都有通话内容，在这种情况下，为了让对象能够清楚了解在这段重叠的通话中，各通话端的通话内容，服务器可以将将各通话端的重叠音频数据独立分解到优化录音数据的时间轴上。例如，服务器将通话音频数据b0在00：56～01:10之间的内容分解到优化录音数据时间轴的00：56～01:10位置处，而将通话音频数据c0在00：56～01:10处的重叠音频数据分解大炮优化录音时间轴01:11～01:25位置处。图6示出了优化录音数据的音频波形图。所以对于原始音频数据时间轴上某一时间段t，如果出现了M个通话端通话音频数据内容重叠的情况，则在优化录音数据的时间轴上，针对该处的内容，需要采用M*t的时长来体现。

另外，为了使得被独立分解到优化录音数据时间轴上的各通话音频数据的重叠音频数据在被播放时语意连贯，则在本实施例中，服务器在对各通话端的重叠音频数据进行分解之前，需要先对原始音频数据进行语义识别，然后根据语义识别结果进行分解，例如根据语义，将通话内容中的表示“因”的重叠音频数据分解到优化录音数据时间轴上在前的位置，将表示“果”的重叠音频数据分解到优化录音数据时间轴上在后的位置。

S108：服务器将优化录音数据发送给终端。

服务器对原始音频数据根据混音处理规则进行对应的优化处理之后，可以得到包括至少一个优化音频片段的优化录音数据。因此服务器可以将该优化录音数据发送给终端，让终端可以根据该优化录音数据进行放音，从而让对象从优化录音数据中轻松且清楚地了解自己希望了解的通话信息。

在本实施例的一些例当中服务器还可以将混音处理规则也发送给终端，这样终端可以了解优化录音数据中每一个优化音频片段是针对哪些原始音频片段进行了哪些优化处理方式的处理。例如，在本实施例的一种示例中，服务器可以将混音处理规则与优化录音数据关联发送给终端，例如将混音处理规则作为优化录音数据的属性信息发送发给终端，这样终端就可以从优化录音数据的属性信息中了解对应的处理位置以及处理方式了。

另外，服务器还可以将针对预混音音频数据的语义识别结果也发送给终端，这样，终端在采用音频输出装置进行放音的同时还可以通过显示屏显示语义识别结果，从而帮助对象更加容易地了解此次N端通话的通话内容。

本发明实施例提供的录音处理方法对原始音频数据进行处理的时候，服务器会根据对象的基础对象特征信息和主题对象特征信息生成有助于对象了解通话内容的混音处理规则，然后根据混音处理规则对原始音频数据进行处理之后，可以让得到的优化录音数据更便于对象了解N端通话的通话信息。而且，针对不同的对象，服务器能够处理得到不同的优化录音数据，所以，即便是针对同一次N端通话，要求获取优化录音数据的对象不同，则最终听到的经过优化的录音也不同，因此听到的效果也会有所不同。而且，即便是同一个对象，由于其基础对象特征信息和主题对象特征信息并不是一成不变的，因此，该对象在不同的时候请求获取优化录音数据，则获取到的优化录音数据也可能是不同的，在这种情况下，一个对象在不同的时候听N端通话的优化录音，可能也会听到不一样的音频播放效果。这样的录音处理方案能够根据对象当前的对象特征信息调整通话录音的播放方式，让对象能够以最轻松的方式了解到其感兴趣的通话内容，无需用户反复多次听取通话录音内容，节约了用户的时间，减少了用户操作，提升了用户体验，同时也增加了通话录音的趣味性。

实施例二：

实施例一中介绍了一种录音处理方法，通过该录音处理方法，服务器能够得到优化录音数据，并将优化录音数据发送给终端。下面介绍一种录音播放方法，该录音播放方法适合终端对前述实施例中服务器生成的优化录音数据进行播放，可以理解的是，由于优化录音数据的生成是根据实施例一中的录音处理方法实现的，因此在理解本实施例提供的录音播放方法时，可以结合前述实施例中的内容进行，下面请参见图7示出的录音播放方法：

S702：终端获取对象的对象特征信息，并将对象特征信息发送给服务器。

所谓对象即是指当前需要听取录音的用户，在本实施例中，终端获取的对象特征信息主要是指对象的基础对象特征信息。以前述实施例中的三端通话为例，用户A的终端a可以通过录音优化指令向服务器发送对象的对象特征信息，从而让服务器基于录音优化指令中携带的基础对象特征信息确定针对原始音频数据进行处理的混音处理规则。可以理解的是，同一个用户在多次向服务器发送录音优化指令时，各次指定的对象可以不完全相同。例如，用户A在2017年3月2日时，想要服务器根据原始音频数据生成针对对象A的优化录音数据1，而在2018年6月12日，该用户可能又要求服务器根据同样的原始音频数据生成针对对象B的优化录音数据2。

在本实施例中，终端携带在录音优化指令中的基础对象特征信息可以包括对象的姓名、年龄、职业、爱好等信息，这些信息可以由用户手动输入给终端。当对象为终端的用户时，也可以由终端自己学习到对应的基础对象特征信息，例如终端根据用户的邮件信息、日历信息等获取到用户的各种基础上信息。

应当理解的是，终端向服务器发送对象特征信息，是为了从服务器侧获取到对应于原始音频数据的优化录音数据，因此，为了让服务器生成优化录音数据，终端应当将原始音频数据发送给服务器。终端可以将原始音频数据携带在录音优化指令中同对象特征信息一同发送给服务器，在本实施例的另一些示例当中，终端也可以将二者分别发送给服务器。对于终端发送原始音频数据和录音优化指令的时序，本实施例中不进行具体限定，先发送原始音频数据，或者先发送录音优化指令都是可行的。

S704：终端接收服务器发送的优化录音数据。

在服务器接收到终端发送的对象特征信息之后，可以基于该对象特征信息生成属于该对象的混音处理规则，并根据混音处理规则对原始音频数据进行处理，从而得到优化录音数据。

服务器生成适合该对象当前听取的录音后，可以将优化音频数据发送给终端。对于终端与服务器之间的通信方式，本实施例中不做具体限定，任何可以让服务器将优化录音数据发送给终端的方式都是可行的。

S706：终端对优化录音数据进行播放。

当终端接收到来自服务器的优化录音数据之后，终端可以对优化录音数据进行播放。可以理解的是，终端播放优化录音数据可以是在接收到用户针对优化录音数据下发的播放指令之后再进行。终端可以参照如下方式对优化录音数据进行播放，请参见图8示出的一种终端播放优化录音数据的一种流程图：

S802：显示与优化录音数据中各优化音频片段对应的音频选择控件。

根据前述实施例的介绍可知，优化录音数据中包括至少一个优化音频片段，所以在本实施例中，终端可以在显示屏上显示与优化录音数据中各优化音频片段对应的音频选择控件，各音频选择空间与各优化音频片段一一对应，这样，用户可以通过终端的显示屏选择其期望被播放的优化音频片段。

S804：通过显示屏接收针对音频选择控件的选择指令。

终端可以通过显示屏接收用户下发的针对音频选择控件的选择指令，在本实施例中，用户下发选择指令的方式可以包括多种，例如直接点击音频选择控件，或者拖拽音频选择控件到指定区域，又或者在目标音频选择控件上将原本并拢的两个指头分开划动一段距离，做出类似于“放大”的动作。选择指令的下发方式可以预先设置完成，用户只需要根据对应的下发要求做出对应的操作即可。但在本实施例的一些示例当中，下发选择指令的方式也可以由用户自定义设置。

S806：播放音频选择控件对应的优化音频片段。

在终端通过显示屏接收到针对某一音频选择控件的选择指令之后，终端可以控制音频输出单元播放该音频选择控件对应的优化音频片段。

为了让用户了解每一个音频选择控件对应的优化音频片段的内容，在本实施例中，音频选择控件附近对应位置还可以显示对应优化音频片段的关键词作为该音频选择控件的标签。

由于在一些示例中，除了优化录音数据，服务器还会将混音处理规则也一并发送给终端，所以在这些情况下，在终端播放优化录音数据之前，终端还会接收服务器发送的与优化录音数据对应的混音处理规则。在服务器将混音处理规则作为优化录音数据的属性信息时，终端在接收到优化录音数据的同时就能获取到优化录音数据的混音处理规则。

根据实施例一的介绍可知，在混音处理规则当中，包括各优化音频片段的优化起止时间以及对应的优化处理方式，在本实施例的一种示例中，终端可以采用如下方式来显示与优化录音数据中各优化音频片段对应的音频选择控件：终端根据优化起止时间在预混音音频数据的播放时间轴上标记显示各优化音频片段对应的音频选择控件。在预混音音频数据的播放时间轴上，终端采用不同的颜色标识了经过优化处理的片段，也即标识了存在对应优化音频片段的原始音频片段，此时预混音音频数据播放时间轴上对应的区域即为音频选择控件，用户通过对预混音音频数据播放时间轴上对应的位置进行操作，即可实现针对音频选择控件选择指令的下发，进而实现对应优化音频片段的播放控制。

在本实施例的另一些示例当中，终端不仅可以在预混音音频数据的播放时间轴上标识出存在与之对应的优化音频片段的原始音频片段，将原始音频片段与优化音频片段区分开，例如针对原始音频片段，播放时间轴上对应位置采用白色显示，如图9所示，而存在对应优化音频片段的位置采用白色以外的颜色进行显示。另外，终端还可以将采用不同优化处理方式的各优化音频片段区分开，例如，针对采用优化处理方式一处理得到的优化音频片段，其音频选择控件上具有黑色斜线填充白色阴影，而采用优化处理方式二处理得到的优化音频片段，其音频选择控件上具有白点填充的黑色阴影……这样用户可以根据各音频选择控件的颜色确定该音频选择控件对应的优化音频内容是采用什么优化处理方式得到的。

在本实施例的一些示例中，终端还可以从服务器侧获取到服务器针对原始音频数据进行语义识别的语义识别结果，这样，当终端在播放优化录音数据的时候，可以根据优化录音数据的时间轴同步显示与当前播放音频数据对应的语义识别结果内容，这样，终端显示屏上显示的文字信息能够提供另一种让用户了解N端通话通话内容的途径，让用户通过听觉和视觉两方面来了解通话内容，降低通话信息获取的难度，进一步提升用户体验。

本实施例提供的录音播放方法，可以通过显示屏向用户呈现优化录音数据中各优化音频片段对应的音频选择控件，让用户可以根据自己的听取需求选择对应的音频选择控件进行优化录音数据的播放，提升了用户回放录音的自由度，保证了用户的自主性，避免了用户每次重头发送全部录音导致浪费用户时间的问题。

更进一步，本实施例提供的录音播放方法还可以在显示屏上显示音频选择控件对应优化音频片段的关键词，让用户可以直观地了解每一个音频选择控件对应优化音频片段的主要内容。

另外，本实施例提供的录音播放方法，终端还可以根据服务器发送的语义识别结果，在播放优化录音数据的过程中，同步显示对应的语义识别结果信息，从而相当于为优化录音数据制作了“字幕”，让用户可以利用自己的视觉来辅助听觉，从而简单、轻松地了解N端通话中自己感兴趣的内容。

实施例三：

为了使本领域技术人员更加清楚本发明中录音处理方法与录音播放方法的优点与细节，本实施例将结合具体的示例对前述录音处理方案以及录音播放方案做进行进一步阐述：

可以理解的是，实现录音处理方案的服务器可以是由一个物理实体构成的服务器，也可以包括多个物理实体，本实施例中，假定用于实现前述录音处理方法的服务器包括融合通信服务器、录音服务器以及语义识别服务器，请参见图10示出的一种录音优化系统的结构示意图：

录音优化系统1包括终端10、融合通信服务器11、录音服务器12以及语义识别服务器13，终端10与融合通信服务器11之间可通信，融合通信服务器11除了能够与终端进行通信外，还可以分别同录音服务器12以及语义识别服务器13通信连接。在本实施例中，终端10与融合通信服务器11之间可以通过各种网络进行通信，融合通信服务器11与录音服务器12、语义识别服务器13可以采用有线的方式通信，也可以采用无线的方式通信。

本实施例假定终端10与其他终端进行了三端通话为例，下面请参见图11示出的录音处理方案与录音播放方案中终端与服务器侧的交互图：

S1102：终端在三端通话过程中进行原始音频数据采集。

终端可以控制DSP获取三端通话过程中的上下行音频数据，即原始音频数据，在本实施例中，当终端采集到原始音频数据后，可以不用立即发送给融合通信服务器，而是先将原始音频数据进行存储，等到需要对录音进行优化的时候再发送给融合通信服务器。

S1104：终端向融合通信服务器发送原始音频数据和录音优化指令。

当终端确定需要让服务器对原始音频数据进行优化处理后，可以将采集到的原始音频数据发送给融合通信服务器。另外，终端还需要向融合通信服务器发送录音优化指令，该录音优化指令中包括用户当前最新的基础对象特征信息，例如用户的年龄、职业等。可以理解的是，由于录音优化指令中携带的是用户的信息作为基础对象特征信息，所以，此次录音优化的对象就是用户自己。

在本实施例的一些示例中，终端会先根据采集到的原始音频数据生成预混音音频数据，并让用户判断是否能够理解三端通话的通话内容，如果用户判定根据预混音音频数据就可以了解三端通话的内容，则终端不必要求服务器进行录音优化处理，否则的话，需要服务器侧对原始音频数据进行优化处理，因此终端需要向融合通信服务器发送原始音频数据以及录音优化指令。

S1106：融合通信服务器将接收到的原始音频数据和录音优化指令发送给录音服务器。

融合通信服务器接收到原始音频数据和录音优化指令之后，需要将原始音频数据和录音优化指令发送给录音服务器，让录音服务器对原始音频数据进行预混音处理生成预混音音频数据。同时让录音服务器根据录音优化指令获取到用户的基础对象特征信息。

S1108：录音服务器对原始音频数据进行预混音处理得到预混音音频数据。

在原始音频数据中包括三个独立的通话音频数据，录音服务器可以根据三个通话音频数据的时间轴将三者进行混音融合，从而生成预混音音频数据。

S1110：录音服务器将预混音音频数据发送给语义识别服务器。

录音服务器生成预混音音频数据之后，可以将预混音音频数据发送给语义之别服务器，以便语义识别服务器对预混音音频数据进行语义识别处理。

S1112：语义识别服务器对预混音音频数据进行语义识别，根据语义识别结果确定出用户的主题对象特征信息。

语义识别服务器接收到来自录音服务器的预混音音频数据之后，可以对预混音音频数据进行语义识别处理，从而理解三端通话的通话内容，并根据三端通话内容确定出三端通话的通话主题与通话关键词，然后根据该通话主题和通话关键词确定对用户而言，比较重要的通信信息作为用户的主题对象特征信息。

S1114：语义识别服务器将主题对象特征信息发送给录音服务器。

S1116：录音服务器确定对象特征信息生成混音处理规则，并根据混音处理规则对原始音频数据进行处理得到优化录音数据。

由于融合通信服务器发送的录音优化指令中包括用户的基础对象特征信息，因此结合用户的基础对象特征信息以及主题对象特征信息，录音服务器可以生成用于对原始音频数据进行处理的混音处理规则。在得到混音处理规则之后，录音服务器对原始音频数据进行优化处理，得到优化录音数据。

S1118：录音服务器将优化录音数据以及对应的混音处理规则通过融合通信服务器发送给终端。

生成优化录音数据之后，录音服务器可以将优化录音数据以及对应的混音处理规则发送给融合通信服务器，然后让融合通信服务器发送给终端。

另外，录音服务器将此次录音优化得到的优化录音数据存储到本端存储器中或者专门的文件服务器中，同时包括该优化录音数据的版本标识，因为用户的对象特征信息可能会随着时间的变化而变化，因此为了保证用户的对象特征信息在发送变化以后，还能获取到之前的优化录音数据，服务器可以对每一个版本的优化录音数据进行存储备份，以备后续终端有对应的获取需求。应当理解的是，由于优化录音数据的数据量较多，需要占用较大的存储空间，则在本实施例中，录音服务器可以保存对应的混音处理规则，这样，当后续用户需要获取以前某一版本的优化录音数据时，录音服务器可以直接提取对应版本的混音处理规则对原始音频数据进行处理，从而得到对应的优化录音数据。除此以外，录音服务器还可以存储对象特征信息来替代存储的混音处理规则。

S1120：终端显示优化音频片段对应的音频选择控件。

终端在得到优化录音数据和对应的混音处理规则之后，可以按照实施例二中的介绍，在预混音音频数据的播放时间轴上显示优化音频片段对应的音频选择控件，并在音频选择控件中显示对应优化音频片段的关键词。

S1122：终端根据接收到的选择指令播放音频选择控件对应的优化音频片段。

在终端播放预混音音频数据的过程中，终端可以接收用户通过触控音频选择控件而下发的选择指令，然后根据选择指令播放音频选择控件对应的优化音频片段。当优化音频片段播放结束后，终端可以继续播放预混音音频数据。

本实施例提供的录音优化系统以及录音处理方案和录音播放方案，终端在存在对采集到的原始音频数据进行优化处理的需求时，可以向服务器侧发送录音优化指令以及原始音频数据，让服务器侧根据录音优化指令中携带的基础对象特征信息以及基于原始音频数据得到的主题对象特征信息得到用于对原始音频数据进行处理的混音处理规则，然后根据混音处理规则对原始音频数据进行处理，从而得到优化录音数据，并返回给终端。使得终端可以向用户播放优化后的优化录音数据，让用户可以以更轻松，更简单的方式了解三端通话中的通话内容。

更进一步的，服务器侧还可以对已经生成的优化录音数据或者用于生成优化录音数据的混音处理规则或者对象特征信息进行存储，以便用户在未来获取过去的优化录音数据，从而提升用户体验。

实施例四：

本实施例提供一种录音处理装置，请参见图12：录音处理装置120包括信息获取模块122、规则生成模块124、优化处理模块126以及录音发送模块128，其中，信息获取模块122用于获取对象的对象特征信息；规则生成模块124用于根据对象特征信息生成混音处理规则；优化处理模块126用于根据混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据；录音发送模块128用于将优化录音数据发送给终端。

在本实施例中，录音处理装置120可以被部署在服务器侧，其功能可以通过多台服务器共同实现，例如，录音处理装置120的功能可以由融合通信服务器、录音服务器以及语义识别服务器共同实现，其中，信息获取模块122的功能可以通过融合通信服务器与语义识别服务器以及录音服务器共同实现，而规则生成模块124和优化处理模块126的功能则可以通过录音服务器的处理器实现，录音发送模块128的功能需要由录音服务器的通信装置以及融合通信服务器的通信装置共同实现。

在本实施例中，所谓对象是指对原始音频数据进行优化处理时，优化所倾向的对象。可以理解的是，当根据对原始音频数据的优化处理倾向于某个对象时，得到的优化录音数据可能会更有利于该对象从优化录音数据中了解N端通话中的相关通话信息。这里的通话可以是指两端的通话，也可以是指三端甚至更多通话端的通话，因此，在本实施例中，N大于等于2。在本实施例中，对象可以由终端侧的用户确定，例如如果需要听取录音信息的是终端侧的用户，则用户可以将指定自己作为对象。但可以理解的是，对象也可以是除了用户以外的其他人。

假定当前有A、B、C三人在进行三方通话，图2所示，用户A是年龄为75岁的老人，用户B是20岁的外国留学生，用户C是40岁的房屋中介职员。A、B、C之间的三端通话主要是用户A和用户C在用户B的帮助下，了解用户C向用户A租赁房屋的相关事宜。三个通话端中的任意一个均可以对此次三端通话进行录音，这里假定由用户A控制自己的终端设备a对三端通话进行录音，则终端设备a就会采集上下行的通话音频数据。可以理解的是，为了便于后续处理，本实施例中终端设备a所采集的原始音频数据应该包括各自独立的三个通话音频数据，分别是终端设备a侧的上行通话音频数据a0，以及来自用户B的下行通话音频数据b0和来自用户C的通话音频数据c0。当用户A的录音结束后，其可以通过终端设备a将原始录音得到的原始音频数据发送给录音处理装置120的信息获取模块122，由录音处理装置120对原始音频数据进行优化处理。

在本实施例中用户可以指定自己作为对象，则信息获取模块122获取对象的对象特征信息时，就是获取用户A的特征信息。当然，如果用户A想要重点了解用户B在此次通话过程中所提及的各种信息，则用户A可以指定用户B作为此次录音优化处理的对象。另外，可以理解的是，通话录音不仅针对三端通话中的各个参与者，也可以是没有参与此次三端通话的其他对象需要听取通话录音信息，因此，在这种情况下，对象可能是除了A、B、C以外的其他人。例如，当用户A的儿子需要帮助自己的父亲处理租房事宜，则其可能需要了解此前的三端通话内容，则这种情况下，录音优化处理的对象就变成了用户D。

对于对象特征信息，在本实施例中，对象特征信息包括对象的一些基础信息，例如姓名、年龄、工作、爱好等基础对象信息。基础对象信息能够帮助录音处理装置120的规则生成模块124在一定程度上确定用于优化处理的混音处理规则：例如，如果对象的年龄较大，假定上述三端通话中的用户A作为对象，则规则生成模块124可以确定需要对原始音频数据的播放速度调慢，以便老人能够理解通话内容。

在本实施例的一些示例中，对象特征信息同时包括基础对象特征信息以及主题对象特征信息。所以，在这些示例当中，信息获取模块122获取对象的对象特征信息时，会获取对象的基础对象特征信息，也会获取对象的主题对象特征信息。

下面对信息获取模块122获取基础对象特征信息以及主题对象特征信息的方案进行简单介绍：

对于基础对象特征信息，可以由终端发送给信息获取模块122，例如在本实施例中，信息获取模块122可以接收终端发送的录音优化指令，然后从录音优化指令中提取出对象的基础对象特征信息。

下面结合对信息获取模块122获取主题对象特征信息的过程进行简单介绍：

由于”主题对象特征信息”指的是对象此次N端通话过程的通话主题下的特征信息，因此为了确定对象，信息获取模块122需要先了解此次N端通话的相关通话内容。而为了了解N端通话的相关通话内容，信息获取模块122通常会先将N个通话端独立的通话音频数据进行预混合(融合)生成预混音音频数据。

得到预混音音频数据之后，信息获取模块122可以对该预混音音频数据进行语义识别，从而理解通话内容。可以理解的是，在本实施例中的信息获取模块122可以具备语义识别功能，也可以不具备语义识别功能。当信息获取模块122自身不具备语义识别功能时，其可以请求其他具备语义识别功能的服务器，例如语义识别服务器完成对预混音音频数据的语义识别过程。

在得到针对预混音音频数据的义识别结果之后，信息获取模块122可以根据语义识别结果确定针对对象的主题对象特征信息。可选地，信息获取模块122可以先根据语义识别结果确定出本次N端通话的通话主题和/或通话关键词，然后根据该通话主题和/或通话关键词确定对对象而言，重要程度达到预设阈值的信息作为主题对象特征信息。

在本实施例中，当信息获取模块122得到对象的对象特征信息后，规则生成模块124可以根据对象特征信息生成混音处理规则。混音处理规则，顾名思义是需要对原始音频数据中N个通话端的独立通话音频数据进行混音的，也即需要根据时间轴将N个通话端的独立通话音频数据进行融合。不过在本实施例中，混音处理规则除了对原始音频数据中N个通话端的独立通话音频数据进行混音融合以外，还会对原始音频数据进行其他优化处理，以便对象更容易其感兴趣的信息，例如录音处理装置120通过突出对象所感兴趣的通话内容，或者根据对象的听觉能力加快或降低音频播放速度等。

在前面已经介绍过，对象特征信息中，基础对象特征信息能够帮助规则生成模块124确定例如录音音频的播放速度等基础处理信息。可以理解的是，除了播放速度基础处理信息还可以包括播放音量等。另外，基础对象特征信息中对象的工作、爱好等还可以进一步帮助确定对象对本次N端通话原始音频数据中感兴趣的部分。所以在本实施例的一种示例中，规则生成模块124可以根据基础对象特征信息和主题对象特征信息确定原始音频数据中哪些信息是对象感兴趣的。确定出对象感兴趣的内容后，规则生成模块124可以基于这些内容生成能够对这些内容进行突出的混音处理规则。

规则生成模块124确定出混音处理规则之后，优化处理模块126可以根据混音处理规则对原始音频数据中的各通话音频数据进行进行处理。通常在混音处理规则当中包括优化起止时间以及优化处理方式，其中，优化起止时间能够指定优化处理模块126对需要优化的原始音频片段，而优化处理方式则指定了对该优化音频片段的优化方式。例如，在图4中示出了原始音频数据的时间轴，该时间轴的起止时间分别是00:00和04:56，而优化处理模块126得到的混音处理规则中，包括两个优化起止时间，其中第一个优化起止时间是00:10～01:10，对应的优化处理方式是优化处理方式一；而第二优化起止时间时02:03～02:59，对应的优化处理方式优化处理方式二。因此，优化处理模块126可以对介于00:10～01:10中的原始音频数据进行优化处理方式一的处理从而得到对应的优化音频片段1，并对介于02:03～02:59之间的原始音频数据进行优化处理方式二的处理从而得到优化音频片段2。

可以理解的是，在原始音频数据中，包括N个独立的通话音频数据，由于这N个通话音频数据都是由同一终端录制的，因此，录制的起止时间是相同的，也就是说这N个独立的通话音频数据具有相同的时间轴，例如，都是从00：～04:56。在本实施例中，有些优化处理方式是针对某个独立的通话音频数据中的某一段或某些段进行处理，而针对N端通话中其他通话端的通话音频数据却不做对应的处理；而有些处理又是针对原始音频数据中所有通话音频数据的。例如：为了突出某一通话端的通话内容时，优化处理模块126只需要对该通话端的通话音频数据的播放音量进行放大，在这种情况下，不会对其他通话端的通话音频数据也做相同的播放音量放大处理。而如果混音处理规则需要照顾对象对录音的听力理解能力，因此，需要指示优化处理模块126对音频数据的播放速度减慢，则这种处理就是针对全部的通话音频数据的，所以，优化处理模块126需要对每一个通话端的通话音频数据均进行播放速度的减慢，或者说优化处理模块126需要将各通话端的通话音频数据融合到一起后，对得到的音频数据的播放速度进行减慢。可见，在本实施例中，优化处理模块126根据混音处理规则对原始音频数据进行处理，有可能是对已经融合的原始音频数据进行处理，也有可能是对未经融合的独立通话音频数据进行处理。

第一种，提高/降低至少一个通话端的通话音频数据的播放音量后，根据时间轴对各通话端的通话音频数据进行融合处理。继续以优化处理模块126对前述三端通话的通话录音进行处理为例：原始音频数据中应该包括用户A的通话音频数据a0，用户B的通话音频数据b0，用户C的通话音频数据c0。根据前述示例的介绍可知，用户A的终端所采集到的通话音频数据a0，b0以及c0是相互独立的，也即在三端通话过程中，A、B、C三人所说的内容尚未根据时间轴融合到一起。所以优化处理模块126可以针对各通话端中的至少一个进行单独处理，例如对于对象A而言，其对自己的通话内容非常清楚，因此在回放录音的时候并不关注自己的通话内容，因此优化处理模块126可以降低用户A的通话音频数据a0的播放音量，或者说提高用户B与用户C的通话音频数据b0与c0的播放音量。另外，如果对象A比较关注用户C的通话内容，因此混音处理规则可以指示优化处理模块126对用户C的通话音频数据c0的播放音量进行放大处理，或者说，为了突出用户C的通话音频数据，优化处理模块126可以适当降低用户A与B的通话音频数据的播放音量。

第二种，增加/降低原始音频数据的播放速度。根据前面的介绍可知，优化处理模块126对原始音频数据的播放速度进行增加或者降低，针对的是原始音频数据中的各个通话音频数据，因此优化处理模块126根据该优化处理方式对原始音频数据进行优化处理的时候，可以分别先针对每一个通话音频数据优化起止时间中的音频数据进行处理，然后再将处理后的各通话音频数据进行融合混音。或者说将原始通话音频数据中的各通话音频数据先进行融合混音之后，再对优化起止时间中的音频数据进行播放速度的调整。

第三种，确定各通话端与其他通话端在时间轴上出现内容重叠的重叠音频数据，并根据对原始音频数据的语义识别结果将各通话端的重叠音频数据依次独立分解到优化录音数据的时间轴上。可以理解的是，在通话过程中，有可能出现在同一时间有两个或以上的用户说话的情况，这样各通话段的通话音频数据在时间轴上就会出现重叠，例如图5示出了通话音频数据a0，通话音频数据b以及通话音频数据c0的音频波形图，在时间轴上00：56～01:10之间，a0和b0两个通话音频数据都有通话内容，在这种情况下，为了让对象能够清楚了解在这段重叠的通话中，各通话端的通话内容，优化处理模块126可以将将各通话端的重叠音频数据独立分解到优化录音数据的时间轴上。例如，优化处理模块126将通话音频数据b0在00：56～01:10之间的内容分解到优化录音数据时间轴的00：56～01:10位置处，而将通话音频数据c0在00：56～01:10处的重叠音频数据分解大炮优化录音时间轴01:11～01:25位置处。图6示出了优化录音数据的音频波形图。所以对于原始音频数据时间轴上某一时间段t，如果出现了M个通话端通话音频数据内容重叠的情况，则在优化录音数据的时间轴上，针对该处的内容，需要采用M*t的时长来体现。

另外，为了使得被独立分解到优化录音数据时间轴上的各通话音频数据的重叠音频数据在被播放时语意连贯，则在本实施例中，优化处理模块126在对各通话端的重叠音频数据进行分解之前，需要先对原始音频数据进行语义识别，然后根据语义识别结果进行分解，例如根据语义，将通话内容中的表示“因”的重叠音频数据分解到优化录音数据时间轴上在前的位置，将表示“果”的重叠音频数据分解到优化录音数据时间轴上在后的位置。

优化处理模块126对原始音频数据根据混音处理规则进行对应的优化处理之后，可以得到包括至少一个优化音频片段的优化录音数据。因此录音发送模块128可以将该优化录音数据发送给终端，让终端可以根据该优化录音数据进行放音，从而让对象从优化录音数据中轻松且清楚地了解自己希望了解的通话信息。

在本实施例的一些例当中录音发送模块128还可以将混音处理规则也发送给终端，这样终端可以了解优化录音数据中每一个优化音频片段是针对哪些原始音频片段进行了哪些优化处理方式的处理。例如，在本实施例的一种示例中，录音发送模块128可以将混音处理规则与优化录音数据关联发送给终端，例如将混音处理规则作为优化录音数据的属性信息发送发给终端，这样终端就可以从优化录音数据的属性信息中了解对应的处理位置以及处理方式了。

另外，录音发送模块128还可以将针对预混音音频数据的语义识别结果也发送给终端，这样，终端在采用音频输出装置进行放音的同时还可以通过显示屏显示语义识别结果，从而帮助对象更加容易地了解此次N端通话的通话内容。

本发明实施例提供的录音处理装置对原始音频数据进行处理的时候，会根据对象的基础对象特征信息和主题对象特征信息生成有助于对象了解通话内容的混音处理规则，然后根据混音处理规则对原始音频数据进行处理之后，可以让得到的优化录音数据更便于对象了解N端通话的通话信息。而且，针对不同的对象，录音处理装置能够处理得到不同的优化录音数据，所以，即便是针对同一次N端通话，要求获取优化录音数据的对象不同，则最终听到的经过优化的录音也不同，因此听到的效果也会有所不同。而且，即便是同一个对象，由于其基础对象特征信息和主题对象特征信息并不是一成不变的，因此，该对象在不同的时候请求获取优化录音数据，则获取到的优化录音数据也可能是不同的，在这种情况下，一个对象在不同的时候听N端通话的优化录音，可能也会听到不一样的音频播放效果。这样的录音处理方案能够根据对象当前的对象特征信息调整通话录音的播放方式，让对象能够以最轻松的方式了解到其感兴趣的通话内容，无需用户反复多次听取通话录音内容，节约了用户的时间，减少了用户操作，提升了用户体验，同时也增加了通话录音的趣味性。

实施例五：

实施例四中介绍了一种录音处理装置，该录音处理装置能够对来自终端的原始音频数据进行处理得到优化录音数据，并将优化录音数据发送给终端。下面介绍一种录音播放装置，该录音播放装置可以对前述实施例中生成的优化录音数据进行播放，可以理解的是，由于优化录音数据的生成是根据实施例一中的录音处理方法实现的，因此在理解本实施例提供的录音播放装置时，可以结合前述实施例中的内容进行，下面请参见图13：

录音播放装置130包括信息发送模块132、录音接收模块134以及录音播放模块136，其中信息发送模块132用于获取对象的对象特征信息，并将对象特征信息发送给服务器；录音接收模块134用于接收服务器发送的优化录音数据，而录音播放模块136则用于对接收到的优化录音数据进行播放。

录音播放装置130可以被部署在各种类型的终端上，包括固定终端以及移动终端，其中信息发送模块132和录音接收模块134的功能可以有终端的处理器控制通信单元实现，而录音播放模块136的功能则可以由终端处理器以及终端音频输出单元以及显示单元、输入单元等共同实现。

所谓对象即是指当前需要听取录音的用户，在本实施例中，信息发送模块132获取的对象特征信息主要是指对象的基础对象特征信息。以前述实施例中的三端通话为例，部署在用户A的终端a上的信息发送模块132可以通过录音优化指令向服务器发送对象的对象特征信息，从而让服务器基于录音优化指令中携带的基础对象特征信息确定针对原始音频数据进行处理的混音处理规则。可以理解的是，同一个用户在多次向服务器发送录音优化指令时，各次指定的对象可以不完全相同。例如，用户A在2017年3月2日时，想要服务器根据原始音频数据生成针对对象A的优化录音数据1，而在2018年6月12日，该用户可能又要求服务器根据同样的原始音频数据生成针对对象B的优化录音数据2。

在本实施例中，信息发送模块132携带在录音优化指令中的基础对象特征信息可以包括对象的姓名、年龄、职业、爱好等信息，这些信息可以由用户手动输入给终端。当对象为终端的用户时，也可以由终端自己学习到对应的基础对象特征信息，例如终端根据用户的邮件信息、日历信息等获取到用户的各种基础上信息。

应当理解的是，信息发送模块132向服务器发送对象特征信息，是为了从服务器侧获取到对应于原始音频数据的优化录音数据，因此，为了让服务器生成优化录音数据，录音播放装置130应当将原始音频数据发送给服务器。录音播放装置130可以将原始音频数据携带在录音优化指令中同对象特征信息一同发送给服务器，在本实施例的另一些示例当中，录音播放装置130也可以将二者分别发送给服务器。对于录音播放装置130发送原始音频数据和录音优化指令的时序，本实施例中不进行具体限定，先发送原始音频数据，或者先发送录音优化指令都是可行的。

在服务器接收到终端发送的对象特征信息之后，可以基于该对象特征信息生成属于该对象的混音处理规则，并根据混音处理规则对原始音频数据进行处理，从而得到优化录音数据。服务器生成适合该对象当前听取的录音后，可以将优化音频数据发送给录音接收模块134。对于录音接收模块134与服务器之间的通信方式，本实施例中不做具体限定，任何可以让服务器将优化录音数据发送给录音接收模块134的方式都是可行的。

当录音接收模块134接收到来自服务器的优化录音数据之后，录音播放模块136可以对优化录音数据进行播放。可以理解的是，录音播放模块136播放优化录音数据可以是在接收到用户针对优化录音数据下发的播放指令之后再进行。录音播放模块136可以参照如下方式对优化录音数据进行播放：

根据前述实施例的介绍可知，优化录音数据中包括至少一个优化音频片段，所以在本实施例中，录音播放模块136可以在显示屏上显示与优化录音数据中各优化音频片段对应的音频选择控件，各音频选择空间与各优化音频片段一一对应，这样，用户可以通过录音播放装置130的显示屏选择其期望被播放的优化音频片段。

录音播放模块136可以通过显示屏接收用户下发的针对音频选择控件的选择指令，在本实施例中，用户下发选择指令的方式可以包括多种，例如直接点击音频选择控件，或者拖拽音频选择控件到指定区域，又或者在目标音频选择控件上将原本并拢的两个指头分开划动一段距离，做出类似于“放大”的动作。选择指令的下发方式可以预先设置完成，用户只需要根据对应的下发要求做出对应的操作即可。但在本实施例的一些示例当中，下发选择指令的方式也可以由用户自定义设置。

在录音播放模块136通过显示屏接收到针对某一音频选择控件的选择指令之后，可以控制音频输出单元播放该音频选择控件对应的优化音频片段。

由于在一些示例中，除了优化录音数据，服务器还会将混音处理规则也一并发送给录音播放装置130的录音接收模块134，所以在这些情况下，在录音播放模块136播放优化录音数据之前，录音接收模块134还会接收服务器发送的与优化录音数据对应的混音处理规则。在服务器将混音处理规则作为优化录音数据的属性信息时，录音接收模块134在接收到优化录音数据的同时就能获取到优化录音数据的混音处理规则。

根据实施例四的介绍可知，在混音处理规则当中，包括各优化音频片段的优化起止时间以及对应的优化处理方式，在本实施例的一种示例中，录音播放模块136可以采用如下方式来显示与优化录音数据中各优化音频片段对应的音频选择控件：录音播放模块136根据优化起止时间在预混音音频数据的播放时间轴上标记显示各优化音频片段对应的音频选择控件。如图9所示，在预混音音频数据的播放时间轴上，录音播放模块136采用不同的颜色标识了经过优化处理的片段，也即标识了存在对应优化音频片段的原始音频片段，此时预混音音频数据播放时间轴上对应的区域即为音频选择控件，用户通过对预混音音频数据播放时间轴上对应的位置进行操作，即可实现针对音频选择控件选择指令的下发，进而实现对应优化音频片段的播放控制。

在本实施例的另一些示例当中，录音播放模块136不仅可以在预混音音频数据的播放时间轴上标识出存在与之对应的优化音频片段的原始音频片段，将原始音频片段与优化音频片段区分开，例如针对原始音频片段，播放时间轴上对应位置采用红色显示，而存在对应优化音频片段的位置采用红色以外的颜色进行显示。另外，录音播放模块136还可以将采用不同优化处理方式的各优化音频片段区分开，例如，针对采用优化处理方式一处理得到的优化音频片段，其音频选择控件呈绿色，而采用优化处理方式二处理得到的优化音频片段，其音频选择控件呈蓝色……这样用户可以根据各音频选择控件的颜色确定该音频选择控件对应的优化音频内容是采用什么优化处理方式得到的。

在本实施例的一些示例中，录音播放模块136还可以从服务器侧获取到服务器针对原始音频数据进行语义识别的语义识别结果，这样，当录音播放模块136在播放优化录音数据的时候，可以根据优化录音数据的时间轴同步显示与当前播放音频数据对应的语义识别结果内容，这样，录音播放模块136显示屏上显示的文字信息能够提供另一种让用户了解N端通话通话内容的途径，让用户通过听觉和视觉两方面来了解通话内容，降低通话信息获取的难度，进一步提升用户体验。

本实施例提供的录音播放装置，可以通过显示屏向用户呈现优化录音数据中各优化音频片段对应的音频选择控件，让用户可以根据自己的听取需求选择对应的音频选择控件进行优化录音数据的播放，提升了用户回放录音的自由度，保证了用户的自主性，避免了用户每次重头发送全部录音导致浪费用户时间的问题。

另外，本实施例提供的录音播放方法，录音播放装置还可以根据服务器发送的语义识别结果，在播放优化录音数据的过程中，同步显示对应的语义识别结果信息，从而相当于为优化录音数据制作了“字幕”，让用户可以利用自己的视觉来辅助听觉，从而简单、轻松地了解N端通话中自己感兴趣的内容。

实施例六：

本实施例提供一种存储介质，该存储介质中可以存储有一个或多个可供一个或多个处理器读取、编译并执行的计算机程序，在本实施例中，该存储介质可以存储录音处理程序、录音播放程序中的至少一个，其中录音处理程序可供一个或多个处理器执行实现前述实施例一或三中介绍的任意一种录音处理方法的步骤。录音播放程序可供一个或多个处理器执行实现前述实施例二或三中介绍的任意一种录音播放方法的步骤。

本实施例还提供一种服务器，请参见图14示出的服务器的硬件结构示意图：

服务器14包括第一处理器141、第一存储器142以及用于连接第一处理器141与第一存储器142的第一通信总线143，其中第一存储器142可以为前述存储有录音处理程序的存储介质。第一处理器141可以读取第一存储器142中存储的录音处理程序，进行编译并执行实现实施例一或三中介绍的任意一种录音处理方法的步骤。服务器14实现实施例一或三中录音处理方法的细节可以参见前述实施例的介绍，这里不再赘述。

本实施例还提供一种终端，请参见图15示出的终端的硬件结构示意图：

终端15包括第二处理器151、第二存储器152以及用于连接第二处理器151与第二存储器152的第二通信总线153，其中第二存储器152可以为前述存储有录音播放程序的存储介质。第二处理器151可以读取第二存储器152中存储的录音播放程序，进行编译并执行实现实施例二或三中介绍的任意一种录音播放方法的步骤。终端15实现实施例二或三中介绍的录音播放方法的细节可以参见前述实施例的介绍，这里不再赘述。终端15可以以各种形式来实施。例如，本发明中描述的终端15可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(PortableMedia Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

本发明实施例提供的服务器、终端及存储介质，针对同样的原始音频数据，可以处理得到优化倾向不同的优化录音数据，让用户得以从不同的“角度”来回放倾听N端通话录音，从而更加全面、清楚地了解N端通过的通话信息。另外，由于可以依据不同的对象对同样的原始音频数据进行优化处理，因此，能够让用户听不不一样的效果，这也在很大程度上提升了录音的趣味性。

显然，本领域的技术人员应该明白，上述本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种录音处理方法，包括：

获取对象的对象特征信息；

根据所述对象特征信息生成混音处理规则；

根据所述混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据，所述原始音频数据中包括N端通话中N个通话端的独立通话音频数据，所述N大于等于2；

将所述优化录音数据发送给终端；

其中，所述对象特征信息包括基础对象特征信息和/或主题对象特征信息，所述基础对象特征信息包括所述对象当前的生理信息和/或社会信息；所述主题对象特征信息为所述对象在所述N端通话的通话主题下的对象特征信息。

2.如权利要求1所述的录音处理方法，其特征在于，所述对象特征信息包括基础对象特征信息，获取所述对象的基础对象特征信息包括：

接收终端发送的录音优化指令；

从所述录音优化指令中提取所述对象的基础对象特征信息。

3.如权利要求1所述的录音处理方法，其特征在于，所述对象特征信息包括主题对象特征信息，获取所述对象的主题对象特征信息包括：

根据时间轴对所述原始音频数据中各通话端的通话音频数据进行融合生成预混音音频数据；

对所述预混音音频数据进行语义识别；

根据语义识别结果确定所述对象的主题对象特征信息。

4.如权利要求3所述的录音处理方法，其特征在于，所述根据语义识别结果确定所述对象的主题对象特征信息包括：

根据所述通话主题和/或所述通话关键词确定对所述对象而言重要程度达到预设阈值的信息作为所述主题对象特征信息。

5.如权利要求1-4任一项所述的录音处理方法，其特征在于，所述优化录音数据中包括至少一个优化音频片段；所述混音处理规则中包括对原始音频数据中原始音频片段进行优化处理以得到优化音频片段的优化处理方式；所述根据所述混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据包括：

根据所述混音处理规则中原始音频片段对应的所述优化处理方式对所述原始音频片段进行处理得到对应的优化音频片段。

6.如权利要求5所述的录音处理方法，其特征在于，所述优化处理方式包括以下几种中的至少一种：

增加/降低所述原始音频数据的播放速度；

确定各通话端与其他通话端在时间轴上出现内容重叠的重叠音频数据，并根据对所述原始音频数据的语义识别结果将各所述通话端的重叠音频数据依次独立分解到优化录音数据的时间轴上。

7.如权利要求6所述的录音处理方法，其特征在于，所述录音处理方法还包括：将所述混音处理规则发送给所述终端。

8.一种录音播放方法，包括：

获取对象的对象特征信息，并将所述对象特征信息发送给服务器；

接收所述服务器发送的优化录音数据，所述优化录音数据由所述服务器根据混音处理规则对原始音频数据进行处理得到，所述原始音频数据中包括N端通话中N个通话端的独立通话音频数据，所述N大于等于2；所述混音处理规则由所述服务器根据所述服务器获取的对象特征信息生成，所述服务器获取的对象特征信息包括基础对象特征信息和/或主题对象特征信息，所述基础对象特征信息包括所述对象当前的生理信息和/或社会信息；所述主题对象特征信息为所述对象在所述N端通话的通话主题下的对象特征信息；

对所述优化录音数据进行播放。

9.如权利要求8所述的录音播放方法，其特征在于，所述对所述优化录音数据进行播放之前，还包括：接收所述服务器发送的针对预混音音频数据进行语义识别得到的语义识别结果，所述预混音音频数据根据时间轴对所述原始音频数据中各通话端的通话音频数据进行融合生成；

所述对所述优化录音数据进行播放的同时，还包括：根据所述优化录音数据的时间轴同步显示与当前播放音频数据对应的语义识别结果内容。

10.如权利要求8或9所述的录音播放方法，其特征在于，所述优化录音数据中包括至少一个优化音频片段；所述对所述优化录音数据进行播放包括：

显示与所述优化录音数据中各优化音频片段对应的音频选择控件；

通过显示屏接收针对所述音频选择控件的选择指令；

播放所述音频选择控件对应的优化音频片段。

11.如权利要求10所述的录音播放方法，其特征在于，所述对所述优化录音数据进行播放之前，还包括：接收所述服务器发送的与所述优化录音数据对应的混音处理规则，所述混音处理规则中包括优化起止时间以及对所述优化起止时间内的原始音频数据进行优化处理的方式；

所述显示与所述优化录音数据中各优化音频片段对应的音频选择控件包括：

根据所述优化起止时间在预混音音频数据的播放时间轴上标记显示各优化音频片段对应的音频选择控件。

12.如权利要求10所述的录音播放方法，其特征在于，所述音频选择控件上显示有对应优化音频片段对应的关键词。

13.一种录音处理装置，其特征在于，包括：

信息获取模块，用于获取对象的对象特征信息；

规则生成模块，用于根据所述对象特征信息生成混音处理规则；

优化处理模块，用于根据所述混音处理规则对来自终端的原始音频数据进行处理得到优化录音数据，所述原始音频数据中包括N端通话中N个通话端的独立通话音频数据，所述N大于等于2；

录音发送模块，用于将所述优化录音数据发送给终端；

14.一种录音播放装置，其特征在于，包括：

信息发送模块，用于获取对象的对象特征信息，并将所述对象特征信息发送给服务器；

录音接收模块，用于接收所述服务器发送的优化录音数据，所述优化录音数据由所述服务器根据混音处理规则对原始音频数据进行处理得到，所述原始音频数据中包括N端通话中N个通话端的独立通话音频数据，所述N大于等于2；所述混音处理规则由所述服务器根据所述服务器获取的对象特征信息生成，所述服务器获取的对象特征信息包括基础对象特征信息和/或主题对象特征信息，所述基础对象特征信息包括所述对象当前的生理信息和/或社会信息；所述主题对象特征信息为所述对象在所述N端通话的通话主题下的对象特征信息；

录音播放模块，用于对所述优化录音数据进行播放。

15.一种服务器，其特征在于，所述服务器包括第一处理器、第一存储器及第一通信总线；

所述第一通信总线用于实现第一处理器和第一存储器之间的连接通信；

所述第一处理器用于执行第一存储器中存储的一个或者多个程序，以实现如权利要求1至7中任一项所述的录音处理方法的步骤。

16.一种终端，其特征在于，所述终端包括第二处理器、第二存储器及第二通信总线；

所述第二通信总线用于实现第二处理器和第二存储器之间的连接通信；

所述第二处理器用于执行第二存储器中存储的一个或者多个程序，以实现如权利要求8至12中任一项所述的录音播放方的步骤。

17.一种存储介质，其特征在于，所述存储介质存储有录音处理程序和/或录音播放程序，所述录音处理程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的录音处理方法的步骤；所述录音播放程序可被一个或者多个处理器执行，以实现如权利要求8至12中任一项所述的录音播放方法的步骤。