CN110334240A

CN110334240A - 信息处理方法、系统及第一设备、第二设备

Info

Publication number: CN110334240A
Application number: CN201910610590.2A
Authority: CN
Inventors: 梁玉龙; 陈致生; 汪俊杰
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-10-15
Anticipated expiration: 2039-07-08
Also published as: CN110334240B

Abstract

本申请的信息处理方法、系统、第一设备及第二设备，提出了一种通过对多设备的多个符合时间条件及空间条件的录音音频进行内容片断更新来最终得到目标音频信息的技术方案，该方案通过利用多个录音音频的音频数据对音频的至少一个内容片断进行更新，来获得至少一个更新内容片段，最终基于至少一个更新内容片段获得目标音频信息(包含不同第二设备采集的录音音频或录音音频的变体)。由此可见，本申请实现了基于多个符合时间条件及空间条件的录音音频对音频进行重组、重构，这相比于单一录音音频可有效提升音频质量，且本申请方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

Description

信息处理方法、系统及第一设备、第二设备

技术领域

本申请属于音频采集与处理技术领域，尤其涉及一种信息处理方法、系统及第一设备、第二设备。

背景技术

在进行会议时，对会议过程进行现场录音十分必要，其可以为会议内容的回溯及备案等提供重要的数据资料支撑。

目前，一般采用录音笔或特定的会议录音设备(如录音仪COME800-02B、COME800-DA等)进行会议录音，然而，录音笔对会议的录音质量往往欠佳，尤其是对于空间较大的会场，录音笔的该劣势更为突显；而使用特定的会议录音设备进行录音则存在录音不够便捷、成本高等缺点。

发明内容

有鉴于此，本申请的目的在于提供一种信息处理方法、系统及第一设备、第二设备，以针对会议录音同时从录音质量、便捷性及成本等多个方面取得较佳效果。

为此，本发明公开如下技术方案：

一种信息处理方法，应用于第一设备，该方法包括：

从多个第二设备中的至少部分第二设备获取多个录音音频，所述至少部分第二设备包括多于一个的第二设备，所述多个录音音频中的各个录音音频满足：

所述各个录音音频采集的时间满足第一时间条件，以及所述各个录音音频采集的空间满足第一空间条件；

确定所述录音音频中至少一个内容片断在所述多个录音音频中对应的音频段组；

根据所述音频段组，生成对应于所述内容片段的更新内容片段；

根据至少一个更新内容片段，生成目标音频信息，所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

上述方法，优选的，所述确定所述录音音频中至少一个内容片断在所述多个录音音频中对应的音频段组，包括：

获得各个录音音频的语音边界或时间边界；

以所述语音边界或时间边界为基准，截取各个录音音频的对应于相同时间信息的音频段；其中，对应于同一时间信息的各个音频段构成一个音频段组，一个音频段组对应于一个内容片断，所述音频段包括至少一个音频帧。

上述方法，优选的，所述根据所述音频段组，生成对应于所述内容片段的更新内容片段，包括：

从内容片段对应的音频段组中选取出符合预定条件的目标音频段；

根据所述目标音频段，生成对应于所述内容片段的更新内容片段。

上述方法，优选的，所述从内容片段对应的音频段组中选取出符合预定条件的目标音频段，包括：

基于预先训练的分类模型对内容片段对应的音频段组中的各个音频段进行质量分类，得到该音频段组中各个音频段的质量分类结果；

基于各个音频段的质量分类结果，选取出符合质量条件的目标音频段；

所述根据所述目标音频段，生成对应于所述内容片段的更新内容片段，包括：

将一个符合质量条件的目标音频段作为所述内容片断的更新内容片断；

或者，

对多于一个的符合质量条件的目标音频段进行融合处理，得到所述内容片断的更新内容片断。

上述方法，优选的，该方法还包括：

将所述目标音频信息反馈至所述多个第二设备。

一种信息处理方法，应用于第二设备，该方法包括：

获取录音指令；

响应于所述录音指令执行录音，得到录音音频；

将所述录音音频发送至第一设备，以使得所述第一设备通过对多个第二设备发送的多个录音音频进行处理，得到目标音频信息；

接收所述第一设备反馈的所述目标音频信息；

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

上述方法，优选的，所述获取录音指令，包括：

获取处于预置模式时，在所述第二设备上或者所述第二设备除外的其他第二设备上所触发的录音指令；

其中，所述预置模式至少能使得处于该模式的多个第二设备能够同步获得录音指令以同步执行录音。

一种第一设备，包括：

第一存储器，用于至少存储一组指令集；

第一处理器，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

一种第二设备，包括：

第二存储器，用于至少存储一组指令集；

第二处理器，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获取录音指令；

响应于所述录音指令执行录音，得到录音音频；

接收所述第一设备反馈的所述目标音频信息；

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

一种信息处理系统，包括如上所述的第一设备，以及多于一个的如上所述的第二设备。

根据以上方案可知，本申请所公开的信息处理方法，提出了一种通过对多设备的多个符合时间条件及空间条件的录音音频进行内容片断更新来最终得到目标音频信息的技术方案，该方案通过利用多个录音音频的音频数据对音频的至少一个内容片断进行更新，来获得至少一个更新内容片段，最终基于该至少一个更新内容片段获得目标音频信息，该目标音频信息包含不同所述第二设备采集的录音音频或录音音频的变体。由此可见，本申请实现了基于多个符合时间条件及空间条件的录音音频对音频进行重组、重构，这相比于单一录音音频可有效提升音频质量，且本申请方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例一提供的应用于第一设备的信息处理方法流程图；

图2是本申请实施例二提供的应用于第一设备的信息处理方法流程图；

图3是本申请实施例二提供的基于按帧截取方式所得到的各内容片断的音频段组示意图；

图4是本申请实施例二提供的基于时间延迟特性的截取方式所得到的各内容片断的音频段组示意图；

图5是本申请实施例三提供的应用于第一设备的信息处理方法流程图；

图6是本申请实施例三提供的一多设备录音及录音音频处理的示意图；

图7是本申请实施例四提供的应用于第一设备的信息处理方法流程图；

图8是本申请实施例五提供的应用于第二设备的信息处理方法流程图；

图9是本申请实施例六提供的应用于第二设备的信息处理方法流程图；

图10是本申请实施例七提供的第一设备的结构示意图；

图11是本申请实施例十一提供的第二设备的结构示意图；

图12是本申请实施例十三提供的信息处理系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了针对会议录音等场景同时从录音质量、便捷性及成本等多个方面取得较佳效果，本申请公开了一种信息处理方法、系统及第一设备、第二设备，所述信息处理方法、系统及第一设备、第二设备提供了一种通过利用多个录音设备(如录音笔、手机等)对会场等场合进行录音、进而对多个录音设备所提供的多个录音音频进行重组、重构，来得到质量得到提升的目标音频信息的技术思路，以下将通过多个实施例对本申请方案进行详细说明。

实施例一

参考图1，是本申请提供的一种信息处理方法实施例一的流程图，本实施例中，所述信息处理方法应用于第一设备，该第一设备可以是智能手机、平板电脑等便携式终端设备、或者还可以是台式机、一体机、笔记本等个人计算机，或者还可以是局域网或网络端/云端服务器等服务器设备。如图1所示，本实施例中，所述信息处理方法包括：

步骤101、从多个第二设备中的至少部分第二设备获取多个录音音频，所述至少部分第二设备包括多于一个的第二设备，所述多个录音音频中的各个录音音频满足：

所述各个录音音频采集的时间满足第一时间条件，以及所述各个录音音频采集的空间满足第一空间条件。

所述第二设备为至少具备录音功能及通信功能的设备，以用于在会议等场景中执行录音并将所得的录音音频发送至第一设备。

示例性地，所述第二设备比如可以是录音笔、智能手机、平板电脑等便携式终端设备，或者还可以是台式机、一体机、笔记本等个人计算机设备；考虑到会议等场景对录音的便捷性需求，所述第二电子设备优选地可以是录音笔、智能手机、平板电脑等便携式终端设备。

所述第一设备可以与各个第二设备不同，或者也可以与各个第二设备中的其中之一相同，例如，多个第二设备中的其中之一既作为录音设备执行录音，又作为音频处理设备执行本申请方案所提供的音频处理逻辑等。

需要说明的是，由于本申请的主要目的在于通过对多个录音设备所提供的多个录音音频进行重组、重构来得到质量得到提升的目标音频信息，从而，所述多个录音音频应具备同时空(或近似同时空)特点，以使得多个录音音频中的至少部分片段对应的语音内容一致(否则若多个录音音频分别对应完全不同的语音内容，则无法通过对多录音音频的重组、重构得到质量提升的目标音频信息)。

鉴于此，本申请中，多个录音音频中的各个录音音频满足以下条件：所述各个录音音频采集的时间满足第一时间条件，以及所述各个录音音频采集的空间满足第一空间条件。

其中，所述第一时间条件，可以是能用于表征各个录音音频在采集时间上至少发生了时间重叠的条件，比如，具体可以是各个录音音频的采集时间相同，或者各个录音音频的采集时间的重叠部分满足设定的时长条件或占比条件等等。

示例性地，比如，如果录音音频1与录音音频2均是对某会场在时间段13：00-13:45的录音，则录音音频1与录音音频2符合上述的第一时间条件；或者，如果录音音频1是对某会场在时间段13：00-13:45的录音，录音音频2是对该会场在时间段13：15-14:00的录音，且假设这两个录音音频的重叠时间(13：15-13:45)满足设定的时长条件，则录音音频1与录音音频2同样符合上述的第一时间条件。

所述第一空间条件，可以是能用于表征各个录音音频在录制时对应相同空间或近似相同空间的条件，比如，具体可以是各录音音频的录制位置处于同一区域(如处于同一会场区域等)，或者各个录音音频的录制位置间的距离不超出设定的距离阈值等。

当需对会议等场景进行录音时，可采用多个第二设备执行录音，比如，针对会议场合，具体由各参会人员利用其持有的智能手机等便携式设备在会场的不同位置对会议现场进行录音等，以得到符合所述第一时间条件以及所述第一空间条件的多个录音音频。

步骤102、确定所述录音音频中至少一个内容片断在所述多个录音音频中对应的音频段组。

基于在执行录音时各个第二设备所处位置的偏差(所处位置不同，相对应地会与音源位置的相对位置关系不同)，所处位置的噪音偏差、不同第二设备的不同性能特征以及音源位置变换等中一个或多个原因，最终所得的多个录音音频往往在录音清晰度、录音音量、噪声情况等方面存在区别，且同一录音音频中的不同内容片断之间在录音清晰度、录音音量、噪声情况等方面也可能存在偏差。比如录音音频1在会议开始后的前5分钟之内所录的音频噪音低、清晰度较高，在会议开始后的第6分钟至第12分钟之内的音频音量较低(与音源位置较远)，而录音2在会议开始后的前5分钟之内所录的音频噪音高、清晰度低，在会议开始后的第6分钟至第12分钟之内的音频音量较高(与音源位置较近)等。

这就导致对于所述符合第一时间条件及第一空间条件的多个录音音频来说，在某一个原始的录音音频中，往往可能存在部分音频片段质量较优、而另外的部分则质量较差的情况，相对应地，在另外的一个录音音频中，则可能在时间与录音质量的对应关系方面与该录音音频具有互补的特征，比如，上述的录音音频1在会议开始后的前5分钟音频噪音低、清晰度较高，在第6分钟至第12分钟则音频音量较低、质量较差，而上述的录音音频2在会议开始后的第6分钟至第12分钟之内的音频音量较高，质量较优，从而，正好可以弥补录音音频1中在所述第6分钟至第12分钟的音频片断质量较差的缺陷。

基于该特点，本申请提出了重组、重构各个录音音频，通过将录音音频的至少一个低质量内容片段更新为至少一个高质量内容片段(高质量内容片段在语音内容上应与相对应被更新的低质量内容片段保持一致)，来最终得到高质量的目标音频信息。

鉴于此，在获得多个第二设备的多个所述录音音频后，可确定所述录音音频中至少一个内容片断在所述多个录音音频中对应的音频段组，以使得为内容片断的更新提供基础。

需要说明的是，同一个内容片断对应的音频段组所包括的各个音频段，在语音内容上应是一致的，区别仅在于，可能会因录音位置不同和/或噪声对声音的影响不同而导致所录的音频音量不同、或者在多人同时说话时，可能会因录音位置不同而导致接收到的不同人的声音顺序略有不同。

步骤103、根据所述音频段组，生成对应于所述内容片段的更新内容片段。

在确定出录音音频中至少一个内容片断在多个录音音频中对应的音频段组后，可综合声音大小、清晰度、噪声等因素，基于内容片段的音频段组所提供的音频数据空间(包括质量不同、且对应的语音内容一致的多个音频段)，为内容片断生成相对应的更新内容片段。其中，为内容片断所生成的更新内容片段，从音频质量角度来说，应至少不低于内容片段的音频段组包括的所有音频段的音频质量。

步骤104、根据至少一个更新内容片段，生成目标音频信息，所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

目标音频信息包含不同所述第二设备采集的录音音频，是指，目标音频信息中的每个内容片断和/或内容片断的子片段，均为多个录音音频中某个录音音频的相应原始音频片断。

目标音频信息包含不同所述第二设备采集的录音音频的变体，是指，目标音频信息中的至少部分内容片断和/或内容片断的子片段，为多个录音音频中某个录音音频的相应原始音频片段的变体。所述原始音频片断的变体，可以是但不限于在对原始音频片断进行了声音大小调节和/或降噪等处理后所得的音频片断。

在生成对应于至少一个内容片段的至少一个更新内容片段后，可进一步根据至少一个更新内容片段，生成目标音频信息。

由于为内容片断所生成的更新内容片段，从音频质量角度来说，至少不低于内容片段的音频段组中所有音频段的音频质量，同时由于每个录音音频在实际录音场景中通常都会基于上述的各种原因，而导致存在一个或几个音频质量较差的片断，从而，最终根据所述至少一个更新内容片段生成的上述目标音频信息，相比于原始的多个录音音频中的任一个，均在音频质量上有所提升。

根据以上方案可知，本实施例所公开的信息处理方法，提出了一种通过对多设备的多个符合时间条件及空间条件的录音音频进行内容片断更新来最终得到目标音频信息的技术方案，该方案通过利用多个录音音频的音频数据对音频的至少一个内容片断进行更新，来获得至少一个更新内容片段，最终基于该至少一个更新内容片段获得目标音频信息，该目标音频信息包含不同所述第二设备采集的录音音频或录音音频的变体。由此可见，本申请实现了基于多个符合时间条件及空间条件的录音音频对音频进行重组、重构，这相比于单一录音音频可有效提升音频质量，且本申请方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

实施例二

本实施例将进一步对上述应用于第一设备的信息处理方法进行详述，参考图2示出的信息处理方法的流程示意图，本实施例中，所述应用于第一设备信息处理方法可以包括以下处理过程：

步骤201、从多个第二设备中的至少部分第二设备获取多个录音音频，所述至少部分第二设备包括多于一个的第二设备，所述多个录音音频中的各个录音音频满足：

所述第一时间条件，可以是能用于表征各个录音音频在采集时间上至少发生了时间重叠的条件，比如，具体可以是各个录音音频的采集时间相同，或者各个录音音频的采集时间的重叠部分满足设定的时长条件或占比条件等等。

步骤202、获得各个录音音频的语音边界或时间边界。

具体地，作为一种可能的实现方式，可以采用语音活动检测(Voice ActivityDetection，VAD)等技术对各个录音音频进行检测，以此得到各个录音音频的语音边界，而录音音频的语音边界在录音音频中所对应的时间点则可以作为录音音频的时间边界。

作为另一种可能的实现方式，还可以在各个第二设备执行录音时，预先对各个第二设备的录音开始时间进行对齐，也即，在同一时间点控制各个第二设备统一启动录音(当然，同时需满足第一空间条件)，从而至少可得到开始时间对齐的各个录音音频。可选地，后续，还可以在同一时间点控制各个第二设备统一结束录音。

对于该情形，可以直接将各个录音音频的开始时间作为其时间边界，或者，可选地，也可以对各个录音音频进行语音活动检测，以实现检测出各个录音音频的语音边界。

步骤203、以所述语音边界或时间边界为基准，截取各个录音音频的对应于相同时间信息的音频段；其中，对应于同一时间信息的各个音频段构成一个音频段组，一个音频段组对应于一个内容片断，所述音频段包括至少一个音频帧。

本申请中，基于对所述各个录音音频在时间条件及空间条件的限制，认为在以所述语音边界或时间边界作为基准(即，将语音边界/时间边界作为时间零点)的情况下，所述各个录音音频中对应于相同时间的各个音频段具有相一致的语音内容，示例性地，比如，各个录音音频在某一相同时段内所对应的各个音频段，均是对某一人物A所讲话语进行录音所得的音频等。

鉴于此，在获得各个录音音频的语音边界或时间边界后，可将各个录音音频按其语音边界或时间边界进行对齐，进而以各录音音频的语音边界或时间边界为基准，截取各个录音音频的对应于相同时间信息的音频段。其中，从各个录音音频中截取的对应于相同时间信息的各音频段所构成的音频段组，即为一个内容片断所对应的音频段组。

可选地，作为一种可能的实现方式，可以按帧对各录音音频进行音频段的截取，比如从每个录音音频的语音边界或时间边界开始，利用轮询方式依次截取各个录音音频的设定长度的音频帧等，同一轮次所截取各个音频段则构成对应于同一内容片断的一个音频段组。

此种方式所得的同一音频段组及不同音频段组中的各个音频段，均具有相同的帧长度，即为所述设定长度，比如所设定的数值为1(相应表示每次截取1个音频帧)，或数值为5(相应表示每次截取5个音频帧)的音频帧长度等。

参考图3，图3示出了对符合上述的第一时间条件及第一空间条件的三个录音音频A、B、C按帧截取时，所得的各内容片断的音频段组示意图，其中，内容片断S1对应的音频段组包括音频段A1、B1、C1，内容片断S2对应的音频段组包括音频段A2、B2、C2，内容片断S3对应的音频段组包括音频段A3、B2、C3。同一音频段组或不同音频段组中的各个音频段具有相同的帧长度。

可选地，作为另一种可能的实现方式，还可以从每个录音音频的语音边界或时间边界开始，基于语音延迟特性(人们说话过程中，同一人从一个短语/一个句子/一个段落结束至另一短语/另一句子/另一段落开始期间，或不同人的不同话音之间通常会有相应的时间延迟)，通过检测录音音频的语音延迟点，对每个录音音频进行切分，其中，同样可利用轮询方式以语音延迟时刻为切分点依次截取各个录音音频的音频帧，同一轮次所截取的各个音频段则构成对应于同一内容片断的一个音频段组。

此种方式所得的同一音频段组中的各个音频段具有相同的帧长度，而不同音频段组的音频段的帧长度可能相同也可能不同。此种方式所得的同一音频段组中的各个音频段在语音内容上通常对应于一个完整的短语、句子或段落。

参考图4，图4示出了对符合上述的第一时间条件及第一空间条件的三个录音音频X、Y、Z基于语音延迟特性进行截取时，所得的各内容片断的音频段组的示意图，其中，内容片断P1对应的音频段组包括音频段X1、Y1、Z1，内容片断P2对应的音频段组包括X2、Y2、Z2，内容片断P3对应的音频段组包括X3、Y2、Z3。同一音频段组中的各个音频段具有相同的帧长度，不同音频段组中的各个音频段具有相同或不同的帧长度。

具体实施中，可根据需要采用上述方式中的任一种，来获得内容片断的音频段组，本实施例对此不做限定。

步骤204、从内容片段对应的音频段组中选取出符合预定条件的目标音频段。

所述目标音频段的数量可以是一个或多个。

所述预定条件，示例性地可以是：音频段组中质量最优的前k(1≤k＜音频段组中的音频段数量，且k为整数)个音频段，或者，还可以是音频段组中质量达到设定的质量条件的音频段等等。

在获得录音音频的内容片断所对应的音频段组后，可基于上述条件，从内容片断所对应的音频段组中选取出一个或多个目标音频段，其中，所选取出的目标音频段的音频质量优于音频段组中未被选取的各音频段的音频质量。

实际实施本申请时，可预先基于录音音频的大数据训练一能用于对音频段进行质量分类的分类模型。

其中，模型的训练数据可来源于预先准备的大数据量的录音音频，训练数据具体可包括多套录音音频，每一套录音音频包括：符合上述第一时间条件及第一空间条件的多个录音音频；模型算法具体可以但不限于采用CNN(Convolutional Neural Networks，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)等神经网络算法。

在进行模型的训练时，可预先将每套录音音频中的各个录音音频按帧或基于语音延迟特性进行切分，得到该套录音音频的多个音频段组，并对每个音频段组中的不同音频段进行质量标注(如将其质量标注为优、良、差等)，在此基础上，可将音频段组及其对应的质量标注信息输入模型，以使得模型基于输入的数据不断学习音频段的音频特征与音频质量之间的关系，如学习音频段的MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、或声波能量特征与音频质量间的关系等等，最终可得到一能够对音频段进行质量分类的分类模型。

在完成模型训练的基础上，当获得录音音频的音频段所对应的音频段组后，可利用预先训练的上述分类模型对内容片段的音频段组包括的各个音频段进行质量分类，相应得到该音频段组中各个音频段的质量分类结果，进而可基于各个音频段的质量分类结果，从内容片段的音频段组中选取出符合上述条件的一个或多个目标音频段，如从内容片断的音频段组中选取出质量最优的一个目标音频段，或选取出质量最优的前k个目标音频段等等。

步骤205、根据所述目标音频段，生成对应于所述内容片段的更新内容片段。

在从内容片段对应的音频段组中选取出符合预定条件的目标音频段后，可基于选取出的目标音频段，生成对应于所述内容片段的更新内容片段。

具体地，若选取出的目标音频段的个数为一个，如选取出了一个质量最优的目标音频段等，则可直接将所选取出的该一个目标音频段作为所述内容片段的更新内容片段，并将其应用于后续的音频重组中，而该内容片段所对应音频段组中的其他音频段则直接过滤掉不予采用。

若选取出的目标音频段的个数为多个，则可进一步筛选出各个目标音频段中质量较优的目标子片段，进而可通过融合所筛选出的各个目标子片段来得到该内容片段对应的更新内容片段。

为了便于更清楚地理解该方式，以下举例说明。

假设在会议过程中，某一发言人在讲话时，不断环绕会场进行走动，那么对于执行录音的各个第二设备来说，针对所录制的该发言人的某一句话(或某一短语、某一段话等)，可能会因录制过程中第二设备与发言人的位置关系发生变化，而导致所录制的该一句话中的不同语音音频存在清晰度、噪音等方面的差异，这也就导致同一第二设备所录制的同一句话中的某些语音质量较高、某些语音则质量较低，而对于该句话中语音质量较低的部分，可能另外一个第二设备对其录音质量恰恰较高(比如正好在说到一句话的某个部分时，发言人与另外一个第二设备较近等)，从而，在基于语音延迟特性将该一句话切分为一个内容片断后，可基于上述的方式，从该一句话对应的各个目标音频段中进一步筛选出质量较优的各个目标子片段(对应一句话中的某一个短语、某个子、词)，最终通过融合所筛选出的各个目标子片段来得到该内容片段对应的更新内容片段。

步骤206、根据至少一个更新内容片段，生成目标音频信息，所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

示例性地，比如通过对至少一个更新内容片段进行拼接处理，来得到目标音频信息等。

具体地，如果为录音音频的每个内容片断均生成了相对应的更新内容片断，则可通过按时序拼接各个更新内容片断，来得到目标音频信息；如果仅为录音音频的部分内容片断生成了相对应的更新内容片断，则可按时序拼接各个不具有更新内容片断的原始内容片断(具体地可随机采用各录音音频中对应于该内容片断的任一音频段)与所述至少一个更新内容片断，来得到目标音频信息。

此种通过直接拼接更新内容片断(或者还可能拼接有不具备更新内容片断的各个原始内容片断)得到目标音频信息的方式，所得的目标音频信息包括不同所述第二设备采集的录音音频。

基于上述直接拼接方式所得的目标音频信息，本质上属于对所述不同录音音频的原始内容片断/子片段进行择优筛选、及重组/重构所得的音频。该方式下，由于目标音频信息包括的各个内容片断/子片段来源于不同的录音音频，这就导致不同内容片断/子片段在拼接点所对应的声音参数可能偏差较大，相应会导致目标音频信息的声音效果不够平滑，例如，声音大小、忽高忽低、受噪音的影像忽大忽小，甚至可能因设备的性能原因，而导致同一人的语音由于拼接了不同设备的音频段从而出现音色时而尖锐时而正常的现象等等。

针对该情况，可选地，对于基于上述直接拼接方式所得的目标音频信息，还可以对其进行声音大小、噪音和/或音色等的平滑处理，以使得其所包括的不同内容片断/子片段的衔接更为平滑、避免出现在衔接点声音参数偏差较大的现象，可选地，在平滑处理后还可以进一步对其进行降噪等其他改善音频质量的处理，最终得到音频质量较好的目标音频信息。此种情况下，所述目标音频信息包括不同所述第二设备采集的录音音频的变体。

容易理解的是，最终得到的所述目标音频信息，为覆盖了各个录音音频的原有语音内容、且语音质量(如语音清晰度、语音音量等)得到提升的音频。

本实施例实现了基于多个符合时间条件及空间条件的录音音频对音频片断进行重组、重构，相比于单一录音音频可有效提升音频质量，且本实施例方案对执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

实施例三

本实施例中，参考图5示出的信息处理方法的流程示意图，所述应用于第一设备的信息处理方法还可以包括：

步骤105、将所述目标音频信息反馈至所述多个第二设备。

在第一设备通过对多于一个的第二设备所提供的多个录音音频进行上述处理，得到语音质量得以提升的目标音频信息后，可将所述目标音频信息反馈至所述多个第二设备，以供所述多个第二设备的用户对所述目标音频信息进行使用或存储、存档。

以下提供一具体示例。

参考图6，图6示出了一针对会议场景进行多设备录音及录音音频处理的示意图，在该示例中，具体由多个参会人员利用其持有的多个手机等便携式终端，在各自所处的位置对会议现场进行了录音，在录音结束后，录制有音频的各个手机或者录制有音频的各个手机中的至少两个手机，将所生成的录音音频上传至云端服务器，之后，云端服务器基于本申请方案的处理逻辑对所获得的各个录音音频进行重组、重构处理，相应得到一内容可覆盖原有录音音频的语音内容且质量得以提升的目标音频信息，在此基础上，云端服务器将所得的该目标音频信息反馈至各个参会人员的手机，以便于各个参会人员对该目标音频信息进行使用或存储、存档。

基于本实施例方案，对于处于会场不同方向、不同位置、性能特征不同的各个执行录音的第二设备来说，最终均可得到涵盖原有录音音频的语音内容，且音频质量得到提升的目标音频信息。且本实施例方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

实施例四

本实施例中，参考图7示出的信息处理方法的流程示意图，所述应用于第一设备的信息处理方法还可以包括：

步骤106、获取转文本指令，响应于所述转文本指令生成所述目标音频信息对应的文本信息，并将所述文本信息反馈至一个或多个第二设备。

在实际应用中，对于录制所得的录音音频，用户可能还会具有获得其所对应的文本信息的需求，如以文本方式阅读会议现场的会话信息/讲话信息，或者以文本方式对会议现场的会话信息/讲话信息进行存储、存档等。

鉴于此，当所述多个第二设备中的任意之一或多个设备具备获得录音音频的文本信息的需求时，可向第一设备发出转文本指令，第一设备在接收到该指令后，会响应该指令，对所生成的目标音频信息进行语音识别，从而得到该目标音频信息对应的的文本信息，最终将所得的文本信息反馈至一个或多个第二设备。

如云端服务器具体以文本文件的形式，将所生成的目标音频信息的文本信息反馈至发出转文本指令的手机，或者反馈至会场中与该云端服务器建立了连接的所有手机等。

基于本实施例方案，可实现向第二设备反馈录音音频的文本信息，丰富了第二设备的用户对录音内容的感知方式及存档方式，提升了用户体验。

实施例五

对应于上述的应用于第一设备的信息处理方法，本申请还公开了一种应用于第二设备的信息处理方法，所述第二设备为至少具备录音功能及通信功能的设备，以用于在会议等场景中执行录音并将所得的录音音频发送至第一设备。所述第二设备比如可以是录音笔、智能手机、平板电脑等便携式终端设备，或者还可以是台式机、一体机、笔记本等个人计算机设备；考虑到会议等场景对录音的便捷性需求，所述第二电子设备优选地可以是录音笔、智能手机、平板电脑等便携式终端设备。所述应用于第二设备的信息处理方法通过与上文所述的应用于第一设备的信息处理方法协同工作，来使得在第二设备最终得到语音内容涵盖其原始录音音频的语音内容，且语音质量得到提升的目标音频信息，以下将展开对本申请的应用于第二设备的信息处理方法的描述。

参考图8示出的信息处理方法的流程示意图，本实施例中，所述应用于第二设备的信息处理方法包括：

步骤801、获取录音指令。

其中，当第二设备的用户存在录音需求时，可在第二设备上触发录音指令，如在某一会场中，当用户需对会场现场进行录音时，可通过在其智能手机等便携式终端上执行相应操作，如点击录音按钮等，来触发用于指示进行录音的录音指令。

在用户执行上述的操作如点击录音按钮时，对于第二设备来说，其相对应地会得到一录音指令。

步骤802、响应于所述录音指令执行录音，得到录音音频。

在获得录音指令后，第二设备会响应该指令执行录音，直至接收到结束录音指令或者设备断电(如电量不足自动关机等)时结束录音。

步骤803、将所述录音音频发送至第一设备，以使得所述第一设备通过对多个第二设备发送的多个录音音频进行处理，得到目标音频信息。

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

在第二设备执行录音进而得到相应录音音频后，区别于现有技术直接将录音所得的原始录音音频进行存储、存档的方式，本申请中，为了获得涵盖有所述录音音频的语音内容、且质量得到提升的目标音频信息，所述第二设备并不直接对原始录制的所述语音音频进行存储、存档，而是将所述录音音频发送至第一设备，如具体发送至云端服务器等。

在云端服务器获得多个第二设备的符合所述第一时间条件以及符合所述第一空间条件的多个录音音频后，可基于本申请的应用于第一设备的信息处理方法对所述多个录音音频进行处理，最终得到能够涵盖各录音音频的语音内容、且音频质量得到提升的目标音频信息，并将所得的目标音频信息反馈至各个第二设备。

其中，所述第一设备对多个录音音频进行处理的处理过程具体可参阅上文各实施例对应用于第一设备的所述信息处理方法的描述，这里不再赘述。

步骤804、接收所述第一设备反馈的所述目标音频信息。

第一设备在通过对各个录音音频进行处理得到目标音频信息后，会将处理所得的目标音频信息反馈至各个第二设备，相对应地，第二设备可得到第一设备反馈的所述目标音频信息。

另外，如果第二设备存在获得录音音频对应的文本信息的需求，则还可以向第一设备发送转文本指令，从而进一步可得到第一设备响应于该指令所生成的对应于所述录音音频的文本信息。

本实施例中，第二设备在执行录音获得录音音频后，通过将录音音频发送至第一设备，最终可得到第一设备基于对多个第二设备提供的符合时间/空间条件的多个录音音频进行处理所生成的质量较高的目标音频信息，有效提升了录音音频的质量，且本实施例方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

实施例六

本实施例中，参考图9示出的信息处理方法的流程示意图，在所述应用于第二设备的信息处理方法中，所述获取录音指令，具体可通过以下的处理过程实现：

步骤901、获取处于预置模式时，在所述第二设备上或者所述第二设备除外的其他第二设备上所触发的录音指令。

为了便于第一设备对多个第二设备所提供的多个录音音频进行处理，本实施例中，针对第二设备的录音功能，还为其提供了上述的预置模式，其中，所述预置模式至少能使得处于该模式的多个第二设备能够同步获得录音指令以同步执行录音。

具体地，可预先将用于对同一场合进行录音的多个第二设备关联起来，如基于蓝牙方式在各个第二设备间建立连接，或者在各个第二设备上预先安装一处理软件，并在该处理软件中建立一个包括各个第二设备的录音群等，在此基础上，可基于各个第二设备间的关联，将各个第二设备置于上述的预置模式。且在该模式下，可选地，可在开始录音之前由其中的某一个设备用户设定开始录音的触发条件，如具体设置录音开始时间等，后续在达到该条件时，该设备可同步向其他相关联的各个第二设备发送录音指令，相对应地，各个第二设备可同步得到录音指令并同步执行录音；或者可选地，还可以由其中的某一个设备用户直接通过执行相应操作来触发录音，如点击“录音”按钮等，当检测到该点击“录音”按钮的操作时，该设备向其他各第二设备同步发送录音指令，以使得各个第二设备能够同步获得录音指令并同步执行录音。

相类似地，同样可基于条件触发或直接执行结束录音的操作等方式来使得各个第二设备同步结束录音。

基于本实施例方案，可使得各个第二设备能够同步获得录音指令进而同步执行录音，从而相应可得到各个第二设备的时间对齐的录音音频，为后续第一设备对多个第二设备提供的多个录音音频进行处理提供了方便。

实施例七

对应于上述的应用于第一设备的信息处理方法，本申请还公开了一种第一设备，该第一设备可以是智能手机、平板电脑等便携式终端设备、或者还可以是台式机、一体机、笔记本等个人计算机，或者还可以是局域网或网络端/云端服务器等服务器设备。参考图10示出的第一设备的结构示意图，所述第一设备包括：

第一存储器1001，用于至少存储一组指令集；

第一处理器1002，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

根据以上方案可知，本实施例所公开的第一设备，提出了一种通过对多设备的多个符合时间条件及空间条件的录音音频进行内容片断更新来最终得到目标音频信息的技术方案，该方案通过利用多个录音音频的音频数据对音频的至少一个内容片断进行更新，来获得至少一个更新内容片段，最终基于该至少一个更新内容片段获得目标音频信息，该目标音频信息包含不同所述第二设备采集的录音音频或录音音频的变体。由此可见，本申请实现了基于多个符合时间条件及空间条件的录音音频对音频进行重组、重构，这相比于单一录音音频可有效提升音频质量，且本申请方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

实施例八

本实施例将进一步对上述的第一设备中处理器1002的信息处理功能进行详述，其中，所述处理器1002的信息处理功能具体可通过以下的处理过程实现：

从多个第二设备中的至少部分第二设备获取多个录音音频，所述至少部分第二设备包括多于一个的第二设备，所述多个录音音频中的各个录音音频满足：所述各个录音音频采集的时间满足第一时间条件，以及所述各个录音音频采集的空间满足第一空间条件；

获得各个录音音频的语音边界或时间边界；

以所述语音边界或时间边界为基准，截取各个录音音频的对应于相同时间信息的音频段；其中，对应于同一时间信息的各个音频段构成一个音频段组，一个音频段组对应于一个内容片断，所述音频段包括至少一个音频帧；

根据所述目标音频段，生成对应于所述内容片段的更新内容片段；

根据至少一个更新内容片段，生成目标音频信息，所述目标音频信息包含下述至少之一：不同所述第二设备采集的录音音频，或者，不同所述第二设备采集的录音音频的变体。

所述目标音频段的数量可以是一个或多个。

其中，模型的训练数据可来源于预先准备的大数据量的录音音频，训练数据具体可包括多套录音音频，每一套录音音频包括：符合上述第一时间条件及第一空间条件的多个录音音频；模型算法具体可以但不限于采用CNN、DNN等神经网络算法。

在进行模型的训练时，可预先将每套录音音频中的各个录音音频按帧或基于语音延迟特性进行切分，得到该套录音音频的多个音频段组，并对每个音频段组中的不同音频段进行质量标注(如将其质量标注为优、良、差等)，在此基础上，可将音频段组及其对应的质量标注信息输入模型，以使得模型基于输入的数据不断学习音频段的音频特征与音频质量之间的关系，如学习音频段的MFCC特征、或声波能量特征与音频质量间的关系等等，最终可得到一能够对音频段进行质量分类的分类模型。

为了便于更清楚地理解该方式，以下举例说明。

实施例九

本实施例中，所述第一设备中的处理器1002还可以用于：

将所述目标音频信息反馈至所述多个第二设备。

以下提供一具体示例。

实施例十

本实施例中，所述第一设备中的处理器1002还可以用于：

获取转文本指令，响应于所述转文本指令生成所述目标音频信息对应的文本信息，并将所述文本信息反馈至一个或多个第二设备。

实施例十一

对应于上述的第一设备，本申请还公开了一种第二设备，所述第二设备为至少具备录音功能及通信功能的设备，以用于在会议等场景中执行录音并将所得的录音音频发送至第一设备。所述第二设备比如可以是录音笔、智能手机、平板电脑等便携式终端设备，或者还可以是台式机、一体机、笔记本等个人计算机设备；考虑到会议等场景对录音的便捷性需求，所述第二电子设备优选地可以是录音笔、智能手机、平板电脑等便携式终端设备。多个第二设备可通过与上文所述的第一设备进行协同工作，来使得在第二设备最终得到语音内容涵盖其原始录音音频的语音内容，且语音质量得到提升的目标音频信息。

参考图11示出的第二设备的结构示意图，所述第二设备包括：

第二存储器1101，用于至少存储一组指令集；

第二处理器1102，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获取录音指令；

响应于所述录音指令执行录音，得到录音音频；

接收所述第一设备反馈的所述目标音频信息；

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

实施例十二

本实施例中，所述第二设备中的处理器1102具体可通过执行以下处理来获取录音指令：

获取处于预置模式时，在所述第二设备上或者所述第二设备除外的其他第二设备上所触发的录音指令。

实施例十三

本申请还公开了一种信息处理系统，参考图12示出的信息处理系统的结构示意图，该系统包括一个如上文所述的第一设备1201，以及多于一个的如上文所述的第二设备1202。

该信息处理系统，可利用所述多于一个的第二设备(如录音笔、手机等)对会议等场合进行多设备录音、相应得到符合上文所述的第一时间条件及第一空间条件的多个录音音频，进而将所述多个录音音频发送至第一设备，第一设备在获得各个第二设备的多个录音音频后，可通过对所述多个录音音频进行重组、重构，来得到质量得以提升的目标音频信息，并最终将所述目标音频信息反馈至所述多于一个的第二设备。

由此可见，本实施例的信息处理系统实现了基于多个符合时间条件及空间条件的录音音频对音频进行重组、重构，这相比于单一录音音频可有效提升音频质量，且本实施例方案对用于执行录音的设备要求不高，目前的智能手机等便携式设备皆可适用，从而具有较好的实施便捷性且成本较低。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息处理方法，应用于第一设备，该方法包括：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

2.根据权利要求1所述的方法，所述确定所述录音音频中至少一个内容片断在所述多个录音音频中对应的音频段组，包括：

获得各个录音音频的语音边界或时间边界；

3.根据权利要求2所述的方法，所述根据所述音频段组，生成对应于所述内容片段的更新内容片段，包括：

4.根据权利要求3所述的方法，所述从内容片段对应的音频段组中选取出符合预定条件的目标音频段，包括：

或者，

5.根据权利要求1-4任一项所述的方法，该方法还包括：

将所述目标音频信息反馈至所述多个第二设备。

6.一种信息处理方法，应用于第二设备，该方法包括：

获取录音指令；

响应于所述录音指令执行录音，得到录音音频；

接收所述第一设备反馈的所述目标音频信息；

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

7.根据权利要求6所述的方法，所述获取录音指令，包括：

8.一种第一设备，包括：

第一存储器，用于至少存储一组指令集；

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

9.一种第二设备，包括：

第二存储器，用于至少存储一组指令集；

获取录音指令；

响应于所述录音指令执行录音，得到录音音频；

接收所述第一设备反馈的所述目标音频信息；

其中，所述多个录音音频中的各个录音音频满足：

所述目标音频信息包含下述至少之一：

不同所述第二设备采集的录音音频，或者，

不同所述第二设备采集的录音音频的变体。

10.一种信息处理系统，包括如权利要求8所述的第一设备，以及多于一个的如权利要求9所述的第二设备。