CN109215688B

CN109215688B - 同场景音频处理方法、装置、计算机可读存储介质及系统

Info

Publication number: CN109215688B
Application number: CN201811176305.2A
Authority: CN
Inventors: 张震; 张大刚; 胡峰; 李星毅
Original assignee: Maipian Technology Shenzhen Co ltd
Current assignee: Maipian Technology Shenzhen Co ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2020-12-22
Anticipated expiration: 2038-10-10
Also published as: CN109215688A

Abstract

本发明公开了一种同场景音频处理方法，包括：多个终端设备进行云录音时产生云处理音频并上传云端服务器，使得云端服务器抓取同场景音频后将这些同场景处理音频云合成为一条高质量的音频反馈给各个终端。其合成音频的处理操作，都是对原音频其缺失的内容补充后并进行降噪、除杂等处理以达到提高音频质量的目的。本发明还公开了一种同场景音频处理装置、计算机可读存储介质及系统。本发明通过将多段同场景音频组合，输出相对精准的高质量语音音频，避免录音设备在录音时因设备因素、环境因素或使用原因而导致录音内容遗漏和模糊，通过合成同场景多录音查漏补缺提高音频质量。实现提高录音设备使用效率，提高用户使用容错率的有益效果。

Description

同场景音频处理方法、装置、计算机可读存储介质及系统

技术领域

本发明涉及声音处理的技术领域，尤其涉及一种同场景音频处理合成方法、装置、计算机可读存储介质及系统。

背景技术

传统的数码录音笔通过对模拟信号的采样、编码将模拟信号通过数模转换器转换为数字信号，并进行一定的压缩后进行存储，播放时对压缩信息进行解码输出，以此来实现传统的录音-播放功能。数字信号即使通过反复复制，声音信息也能保存完好不受损失，并保持原样不变。但是传统的录音笔功能单一、扩展性差。并且依赖录音环境，使用场景的不可复制化导致当环境不利于有效录音时，录制的声音信息可能会有缺失、模糊等情况发生。若使用高端录音设备，会有成本太高、无法普及等使用壁垒。目前随着教育领域的科技化和物联网化，用户在某些场景对于录音的使用越来越多，并且用户通常为普通用户，难以承担高成本的录音设备。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种同场景音频处理方法，旨在解决通过现有技术进行同场景多人录音时，因个别人录音操作不当或受到环境影响时，录制的声音存在质量问题的技术问题。

为实现上述目的，本发明提供一种多终端同场景多段录音的处理合成方法，包括以下内容：

获取多个终端上传的待合成的云处理音频，所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频；

将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频；

将合成后的目标音频输出至对应终端。

优选地，所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤之前，还包括：

确认所述云处理音频是否在同一录音场景下录制；

在确认所述云处理音频在同一录音场景下录制时，执行将获取到的云处理音频输入预设的声学模型的步骤。

优选地，所述确认所述云处理音频是否在同一录音场景下录制的步骤，还包括：

提取所述云处理音频的环境参数，并确认所述环境参数是否一致，所述环境参数包括时间维度及空间定位；

在确认所述环境参数一致时，确认所述云处理音频在同一录音场景下录制。

优选地，所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤，还包括：

通过所述声音算法分析比对输入的云处理音频，并输出所述云处理音频的声学波形维度；

整合输出的声学波形维度以合成所述目标音频。

优选地，所述整合输出的声学波形维度以合成所述目标音频的步骤，包括：

以预设的模糊原理训练输出的声学波形维度，并以训练后的声学波形维度生成所述目标音频。

优选的，所述将合成后的目标音频输出至对应终端的步骤，还包括：

获取已登记的终端信息，并根据获取到的终端信息将合成后的目标音频输出至对应终端，所述终端信息指上传云处理音频的终端。

优选地，所述同场景音频处理方法，还包括：

构建预设的声学模型；

在已构建的声学模型中添加预设音频处理操作流程，所述音频处理操作流程包括添加声音算法及模糊原理。

此外，为实现上述目的，本发明还提供一种同场景音频处理装置，所述同场景音频处理装置包括：存储器、处理器，所述存储器上存储有能够被处理器调用的计算机程序，所述计算机程序被所述处理器执行时实现如上所述同场景音频处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有同场景音频处理程序，所述同场景音频处理程序被处理器执行时实现如上所述同场景音频处理方法的步骤。

本发明还提供一种同场景音频处理系统，所述同场景音频处理系统在执行时实现如上所述的同场景音频处理方法的步骤。

本发明实施例提出的一种同场景音频处理方法，获取多个终端上传的待合成的云处理音频，所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频；将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频；将合成后的目标音频输出至对应终端。通过将多段同场景音频组合，以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频，即通过资源共享、整合与反馈进而提高了录音设备使用效率并提高用户容错率，实现了有质量问题的音频处理操作，进而提高了录音笔使用效率的有益效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图；

图2为本发明同场景音频处理方法第一实施例的流程示意图；

图3为本发明同场景音频处理方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取多个终端上传的待合成的云处理音频，所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频；将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频；将合成后的目标音频输出至对应终端。

由于现有技术中，传统的录音笔功能单一、扩展性差。并且依赖录音环境，使用场景的不可复制化导致当环境不利于有效录音时，录制的声音信息可能会有缺失、模糊等情况发生。若使用高端录音设备，会有成本太高、无法普及等使用壁垒。

本发明提供一种解决方案，通过将多段同场景音频组合，以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频，实现了有质量问题的音频处理操作，进而提高了录音笔使用效率的有益效果。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器，便携计算机等可移动式或不可移动式终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及同场景音频处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的同场景音频处理程序，并执行以下操作：

将合成后的目标音频输出至对应终端。

进一步地，处理器1001可以调用存储器1005中存储的同场景音频处理程序，还执行以下操作：

确认所述云处理音频是否在同一录音场景下录制；

整合输出的声学波形维度以合成所述目标音频。

构建预设的声学模型；

参照图2，图2为本发明同场景音频处理方法第一实施例的流程示意图，所述同场景音频处理方法包括：

步骤S10，获取多个终端上传的待合成的云处理音频，所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频；

基于当前的音频合成需求，获取待合成的云处理音频。所述待合成的云处理音频为多个终端设备在同一录音环境下录制的音频，且所述终端设备在录制到当前录音坏境下的音频后，将录制到的音频上传至预设的云服务器作为待合成的云处理音频；或者所述云处理音频为已存储在服务器预设区域的云处理音频，且所述云处理音频在上传时，可能登记了所述云处理音频的环境参数。在实际应用中，同一录音场景下多个终端设备在录制当前的音频后，将录制到的所述音频上传至云服务器，以在所述云服务器中应用预设的声学模型合成目标音频。如上所述，其云处理同场景音频处理前提为获取到且需合成的云处理音频为同一录音场景的录制音频，其云处理音频的存储方式以及合成操作可在移动终端或者云服务器上实现。

步骤S20，将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频；

基于获取到的待合成的云处理音频，将所述云处理音频输入至预设的声学模型，所述声学模型为预先构建的合成云处理音频的学习模型。以所述声学模型中已设定的声音算法分析比对获取到的云处理音频，如步骤S10所述的内容，待合成云处理音频在执行合成操作的前提为，获取到的云处理音频为同一录音场景下不同终端设备的录制音频，因此，在合成云处理音频之前，需确认获取到的云处理音频是否满足合成条件，即所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤之前，还包括：

确认所述云处理音频是否在同一录音场景下录制；

在确认获取到的待合成云处理音频是否满足合成条件时，其确认方式可通过所述云处理音频的环境参数确认，所述环境参数为所述待合成云处理音频在上传时所登记的音频信息，或者通过抓取所述待合成云处理音频的音频信息以得出所述云处理音频的环境参数。如此，所述确认所述云处理音频是否在同一录音场景下录制的步骤，还包括：

在获取到的云处理音频中提取环境参数，并确认提取到的环境参数是否一致，所述环境参数包括时间维度及空间定位。在确认步骤中，以所述环境参数的空间定位确认获取到的云处理音频是否为同场景的音频；以空间定位确认获取到的云处理音频是否为同一时间线的音频，以便确认获取到的云处理音频是否有效，即确认是否能够合成获取到的云处理音频并输出目标音频。基于所述环境参数的比对操作，在确认云处理音频中提取到的环境参数一致时，确认获取到的云处理音频有效，即确认获取到的云处理音频可进行合成操作。

进一步的，若获取到的云处理音频未登记环境参数，读取所述云处理音频的音频基数，以将所述云处理音频进行近似度匹配，所述近似度匹配的操作为现有的音频匹配操作。在匹配获取到的所述云处理音频时，需将获取到的所有云处理音频的音频基数进行近似度匹配的操作，在确认所述云处理音频的音频基数匹配一致时，确认获取到的云处理音频有效，即获取到的所述云处理音频可执行合成处理。

在将获取到的待合成云处理音频输入预设的声学模型进行音频合成操作，即所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤，还包括：

整合输出的声学波形维度以合成所述目标音频。

在获取到的有效云处理音频输入至预设的声学模型时，以所述声学模型的预设声音算法分析比对输入的云处理音频。所述预设的声音算法包括但不限于现有的傅立叶算法以及高斯分量等内容，以对输入的云处理音频进行过滤、比对、补充、除噪等操作，并在所述预设的声音算法处理获取到的云处理音频后，输出处理的所述云处理音频的声学波形维度。根据已输出的声学波形维度，整合已输出的声学波形维度生成所述目标音频，另外，在将声音算法分析比对后输出的声学波形维度整合并生成目标音频时，即所述整合输出的声学波形维度以合成所述目标音频的步骤，包括：

根据预设的声音算法输出云处理音频的声学波形维度，对所述声学波形维度进行模糊原理训练操作，所述模糊原理为已设定的音频模型原理处理技术，并以模糊处理最优化的声学波形维度合成后生成所述目标音频。

进一步的，在将获取到的云处理音频合成目标音频时，还可根据所述云处理音频的环境参数确认所述云处理音频是否满足预设的立体声条件，所述预设的立体声条件，可根据所述环境参数中的空间定位确定是否满足立体声条件。所述立体声是指具有立体感的声音，立体声是一个几何概念，指在三维空间中占有位置的事物。因为声源有确定的空间位置，声音有确定的方向来源，人们的听觉有辨别声源方位的能力。特别是有多个声源同时发声时，人们可以凭听觉感知各个声源在空间的位置分布状况。从这个意义上讲，自然界所发出的一切声音都是立体声。如雷声、火车声、枪炮声、风声、雨声等等。如此，所述预设的立体声条件可设定为同一环境下在目标位置采集环境声音。因此，可通过解析获取到的所述云处理音频的环境参数，确认所述云处理音频是否满足预设的立体声条件，即所述云处理音频的采集位置是否为特定的目标位置。另外，在设定所述预设的立体声条件时，还可通过声音采集的环境范围对应计算目标位置的区域，具体的计算公式由相关的技术人员设定。

如上所述，在确认获取到的云处理音频的环境参数满足预设的立体声条件时，可发起立体声合成提示，其提示方式为现有的弹出功能框或者发出声音提示，并在接收到用户返回的基于所述立体声合成提示的确认合成立体声指令时，通过所述声学模型中已预设的立体声合成功能将云处理音频合成立体目标音频。所述预设的立体声合成功能可为所述声学模型中的附属功能，并在检测到云处理音频满足预设的立体声条件时触发；或者，所述预设的立体声合成功能挂载在所述声学模型的合成功能中以实现立体目标音频的合成。

步骤S30，将合成后的目标音频输出至对应终端。

将已合成的目标音频输出，所述输出操作可根据所述声学模型中已定义的输出目标进行输出，或者根据已定义的输出目的地输出合成后的目标音频。

如此，在输出合成后的目标音频还包括，即所述将合成后的目标音频输出至对应终端的步骤，还包括：

在云服务器中预设的终端信息登记区域获取已登记的终端信息，所述已登记的终端信息可以为上传处理音频的终端设备，即所述终端设备在同一录音环境下录制处理音频后上传至云服务器，在上传至云服务器时需登记终端设备的终端信息，以接收合成后的目标音频，且在登记所述终端设备的终端信息时，需登记所要接收的目标音频以免出现处理音频发送错误，在登记需接收的目标音频时，可通过登记目标音频的音频标识进行目标音频的区分。

在本实施例中，通过将多段同场景音频组合，以预设的声学模型进行降噪、补充、除杂等操作后输出相对精准的语音音频，实现了有质量问题的音频处理操作，进而提高了录音笔使用效率的有益效果。

参考图3，图3为本发明同场景音频处理方法第二实施例的流程示意图，基于上述图2所示的第一实施例，所述同场景音频处理方法，还包括：

步骤S40，构建预设的声学模型；

步骤S50，在已构建的声学模型中添加预设音频处理操作流程，所述音频处理操作流程包括添加声音算法及模糊原理。

本实施例中，基于当前的音频处理操作，构建预设的声学模型。并且，在已构建的声学模型中新建预设的音频处理操作流程，所述音频处理操作流程包括添加声音算法以及模糊原理。进一步的，所述声音算法包括但不仅限于现有的傅立叶算法以及高斯分量，而且，所述声学模型中的预设音频处理操作流程可根据当前的音频合成需求调整相关算法；或者，根据已输入的云处理音频的音频质量对应调整相关的声音算法及模糊原理，而判定所述云处理音频的音频质量通过已设定的音频质量判定机制进行云处理音频的音频质量判定，进而实现音频合成与处理操作。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有同场景音频处理程序，所述同场景音频处理程序被处理器执行时实现如下操作：

将合成后的目标音频输出至对应终端。

进一步地，所述同场景音频处理程序被处理器执行时还实现如下操作：

确认所述云处理音频是否在同一录音场景下录制；

整合输出的声学波形维度以合成所述目标音频。

构建预设的声学模型；

本发明还提供一种同场景音频处理系统，所述同场景音频处理系统在执行时实现如上所述的同场景音频处理方法实施例的内容。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、药品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、药品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、药品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种同场景音频处理方法，其特征在于，所述同场景音频处理方法包括以下步骤：

获取多个终端上传的待合成的云处理音频，所述云处理音频为同一录音场景下多个录音终端录制并上传至云服务器的云处理音频，其中，所述云服务器已登记所述云处理音频的环境参数；

在确认所述环境参数一致时，确认所述云处理音频在同一录音场景下录制；

在未能获取到所述云处理音频的环境参数时，读取所述云处理音频的基数进行近似度匹配，并在确认所述云处理音频的音频基数匹配一致时，确认所述云处理音频在同一录音场景下录制；

在确认所述云处理音频在同一录音场景下录制后，将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频；

将合成后的目标音频输出至对应终端；

其中，所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤，包括：

整合输出的声学波形维度以合成所述目标音频；

以及，根据所述云处理音频的环境参数确定所述云处理音频是否满足预设的立体声条件，所述立体声条件定义为同一环境下在目标位置采集的环境声音；

在确认所述云处理音频满足立体声条件时，生成所述目标音频的立体声音频。

2.如权利要求1所述的同场景音频处理方法，其特征在于，所述将获取到的云处理音频输入预设的声学模型，以根据所述声学模型的声音算法合成目标音频的步骤之前，还包括：

确认所述云处理音频是否在同一录音场景下录制；

3.如权利要求1所述的同场景音频处理方法，其特征在于，所述整合输出的声学波形维度以合成所述目标音频的步骤，包括：

4.如权利要求1所述的同场景音频处理方法，其特征在于，所述将合成后的目标音频输出至对应终端的步骤，还包括：

5.如权利要求1至4任一项所述的同场景音频处理方法，其特征在于，所述同场景音频处理方法，还包括：

构建预设的声学模型；

6.一种同场景音频处理装置，其特征在于，所述同场景音频处理装置包括：存储器、处理器，所述存储器上存储有能够被处理器调用的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述同场景音频处理方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有同场景音频处理程序，所述同场景音频处理程序被处理器执行时实现如权利要求1至5中任一项所述同场景音频处理方法的步骤。

8.一种同场景音频处理系统，其特征在于，所述同场景音频处理系统在执行时实现如权利要求1至5任一项所述的同场景音频处理方法的步骤。