CN111462786A

CN111462786A - 播放声音的录取方法、装置、计算机设备和存储介质

Info

Publication number: CN111462786A
Application number: CN202010275305.9A
Authority: CN
Inventors: 宋剑; 熊宽; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-28

Abstract

本申请提供了一种播放声音的录取方法、装置、计算机设备和存储介质，其中方法包括：执行播放声音数据的动作；执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。本申请中录取的录音数据中，基于播放的声音数据的直接提取，有效屏蔽了环境噪声，提升录音效果。

Description

播放声音的录取方法、装置、计算机设备和存储介质

技术领域

本申请涉及录音的技术领域，特别涉及一种播放声音的录取方法、装置、计算机设备和存储介质。

背景技术

目前的录音通过麦克风(mic)录取喇叭播放的声音，录取过程中容易把环境音等噪声也录取进去，造成录音效果不佳；而需要好的录音效果还需要品质更好的麦克风以及喇叭，需要更高的硬件成本。

发明内容

本申请的主要目的为提供一种播放声音的录取方法、装置、计算机设备和存储介质，旨在克服目前录音过程中容易把环境音录取进去造成录音效果不佳的缺陷。

为实现上述目的，本申请提供了一种播放声音的录取方法，包括以下步骤：

执行播放声音数据的动作；

执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；

读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；

将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。

进一步地，所述执行播放声音数据的动作的步骤之前，包括：

将所述声音数据写入喇叭播放接口中；

申请一个buffer数据块，并将所述声音数据同步写入所述buffer数据块中。

设置录音时的参数与播放声音数据时的参数一致；所述参数至少包括采样率、声道数。

进一步地，所述将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据的步骤之后，包括：

对所述声音数据进行语音识别，得到所述声音数据对应的第一文本；

对所述录音数据进行语音识别，得到所述录音数据对应的第二文本；

判断所述第一文本与所述第二文本是否一致；

若一致，则判定所述录音数据有效。

将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量，分别为声音特征向量、录音特征向量；

计算所述声音特征向量与录音特征向量的相似度；

若相似度大于阈值，则判定所述录音数据有效。

进一步地，所述将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量的步骤，包括：

分别提取所述声音数据以及所述录音数据的每一帧数据；

分别将所述声音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述声音数据中每一帧语音数据对应的第一向量，并将所述声音数据中所有帧语音数据对应的第一向量进行求和得到第一和向量，作为所述声音数据对应的声音特征向量；

分别将所述录音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述录音数据中每一帧语音数据对应的第二向量，并将所述录音数据中所有帧语音数据对应的第二向量进行求和得到第二和向量，作为所述录音数据对应的录音特征向量。

本申请还提供了一种播放声音的录取装置，包括：

播放单元，用于执行播放声音数据的动作；

采集单元，用于执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；

读取单元，用于读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；

替换单元，用于将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。

进一步地，还包括：

第一写入单元，用于将所述声音数据写入喇叭播放接口中；

第二写入单元，用于申请一个buffer数据块，并将所述声音数据同步写入所述buffer数据块中。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的播放声音的录取方法、装置、计算机设备和存储介质，包括：执行播放声音数据的动作；执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。本申请中录取的录音数据中，基于播放的声音数据的直接提取，有效屏蔽了环境噪声，提升录音效果。

附图说明

图1是本申请一实施例中播放声音的录取方法步骤示意图；

图2是本申请一实施例中播放声音的录取装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种播放声音的录取方法，包括以下步骤：

步骤S1，执行播放声音数据的动作；

步骤S2，执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；

步骤S3，读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；

步骤S4，将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。

在本实施例中，上述方法应用于一些需要利用到录音的场景中；目前，录音的方式通常采用的是，通过喇叭在环境中播放声音，并通过麦克风录音喇叭播放的声音，此时麦克风会将环境噪声也录取进来，造成录音效果不佳。在一些方案中，为了使得录音效果更好，会采用对录音进行噪声处理的方式，显然会增加硬件成本以及数据处理量，影响录音效率。

在本实施例中，如上述步骤S1所述的，执行播放声音数据的动作，即播放声音数据，本实施例中即是实现对播放的该声音数据进行录取。可以理解的是，上述执行播放的动作中，只需要实现上述声音数据的播放即可，并不需要使用喇叭将该声音数据通过声音的形式播放出来(例如，可以不配置有喇叭硬件)，即在上述播放过程中，是没有播放声音的，仅仅具有上述播放动作。

如上述步骤S2所述的，执行录音的动作中，同样只是实现录音的动作，并没有通过麦克风去采集当前的环境音，可以理解的是，可以不配置有麦克风，而在软件上实现录音的动作，使得采集的是一个空白的数据流。为了使得播放与录音的同步，因此，上述录音时的参数与播放声音数据时的参数应当一致。

如上述步骤S3所述的，上述buffer数据块为预先申请的一个存储所述声音数据的缓存数据块，该数据块中存储的声音数据即是上述播放过程中的声音数据。

在本实施例中，录音时，读取buffer数据块中预存的所述声音数据是一个连续的过程，该读取过程采用的参数与上述播放时的参数也可以一致，以保障后续数据替换的一致性。每次读取声音数据时需要记录buffer数据块中已经读取了数据的地方，下次读取时就可以接着上次读取完的地方读取，以保证读取数据的连续性，当读取到buffer数据块结尾的地方，在确认buffer数据块开头的地方有新的声音数据写入后，又重新从buffer数据块开头的地方读取，这样就可以循环写入，循环读取，保证数据的连续。

如上述步骤S4所述的，将读取到的声音数据覆盖录音时采集的空白数据流，将该读取的声音数据当作是录音的录音数据。此过程中，没有录取到环境的噪声，将buffer数据块中的声音数据按照录音的参数，转换成对应的录音数据，不仅提高了录音效果，而且该过程中数据处理量少，同时，无需按照喇叭、麦克风等硬件，降低了硬件成本。

在一实施例中，所述执行播放声音数据的动作的步骤S1之前，包括：

步骤S11，将所述声音数据写入喇叭播放接口中；

步骤S12，申请一个buffer数据块，并将所述声音数据同步写入所述buffer数据块中。

在本实施例中，上述声音数据为pcm数据，在往喇叭播放接口中写入播放的声音数据时，同步把声音数据写到申请到的buffer数据块里。由于写入数据的过程是连续不停的写入，所以需要记录当前写入数据后的位置，以便下次写入时接着在上次写入数据的后面写入，以保持数据的连续性，不会覆盖上次写入的数据，当buffer数据块写满时，在确认数据已被读取后，又从buffer数据块开始的地方重新写入覆盖，从而实现了内存的重复应用。

设置录音时的参数与播放声音数据时的参数一致；所述参数至少包括采样率、声道数。在本实施例中，保持录音时的参数与播放声音数据时的参数一致，保持播放与录音的同步。

在一实施例中，所述将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据的步骤S4之后，包括：

步骤S51，对所述声音数据进行语音识别，得到所述声音数据对应的第一文本；

步骤S52，对所述录音数据进行语音识别，得到所述录音数据对应的第二文本；

步骤S53，判断所述第一文本与所述第二文本是否一致；

步骤S54，若一致，则判定所述录音数据有效。

在本实施例中，由于上述录音数据不是由麦克风直接录取环境音所生成，而是从buffer数据块中读取的声音数据进行替换后所得，为了避免上述读取的数据有误，需要对上述过程中生成的录音数据进行有效性验证。

在本实施例中，采用语音识别模型对上述声音数据、录音数据分别进行语音识别，得到其中包括的文字，根据文字生成对应的第一文本、第二文本。进而，再比对第一文本以及第二文本，判断所述第一文本与所述第二文本是否一致；若一致，则表明语音中的文本内容一致，判定所述录音数据为有效；若不一致，则表明语音中的文本内容不一致，判定所述录音数据为无效。

在另一实施例中，所述将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据的步骤S4之后，包括：

步骤S501，将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量，分别为声音特征向量、录音特征向量；

步骤S502，计算所述声音特征向量与录音特征向量的相似度；

步骤S503，若相似度大于阈值，则判定所述录音数据有效。

在本实施例中，由于上述录音数据不是由麦克风直接录取环境音所生成，而是从buffer数据块中读取的声音数据进行替换后所得，为了避免上述读取的数据有误，需要对上述过程中生成的录音数据进行有效性验证。本实施例在提出另一种验证上述录音数据的方式。

具体地，上述预设的神经网络中为预先训练所得到，该神经网络至少包括输入层、输出层以及投射层，输入层用于属于语音数据，投射层用于将语音数据投射至一个空间向量，输出层用于输出该空间向量。上述过程中输出的空间向量即作为上述声音数据以及所述录音数据的特征向量。

为了验证录音数据与上述声音数据的内容是否一致时，只需要在提取出上述声音数据对应的声音特征向量以及录音数据对应的录音特征向量之后，计算上述声音特征向量与录音特征向量的相似度，当相似度高于阈值，则表明极其相似，可以判定两者一致，则判定所述录音数据有效；若相似度低于阈值，则可以认为上述录音数据与上述声音数据差距较大，则判定所述录音数据无效。在本实施例中，上述相似度的计算可采用余弦相似度计算。

在本实施例中，所述将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量的步骤S501，包括：

a、分别提取所述声音数据以及所述录音数据的每一帧数据；

b、分别将所述声音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述声音数据中每一帧语音数据对应的第一向量，并将所述声音数据中所有帧语音数据对应的第一向量进行求和得到第一和向量，作为所述声音数据对应的声音特征向量；

c、分别将所述录音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述录音数据中每一帧语音数据对应的第二向量，并将所述录音数据中所有帧语音数据对应的第二向量进行求和得到第二和向量，作为所述录音数据对应的录音特征向量。

在本实施例中，上述神经网络每一次只处理一帧数据，因此，需要将上述声音数据以及录音数据转换成每一帧数据，且每一帧数据具有时间排列顺序。

进而，按照所述声音数据以及录音数据中每一帧数据的排列顺序，依次将每一帧数据输入至预先训练得到的上述神经网络中，提取每一帧数据对应的向量。

进而，再将声音数据/录音数据中所有帧数据对应的向量进行求和，得到和向量作为对应的特征向量；对所有帧数据对应的向量进行求和，是由于每个字所占据的帧数量不同，每次输入的帧数量是不定长的，输出帧也是不定长的，则不能直接以每一帧的输出直接进行比较。因此，最终用求和的方式，将所有帧数据对应的第一向量进行求和生成和向量。

在另一实施例中，所述判断所述第一文本与所述第二文本是否一致的步骤S53之后，包括：

若一致，则将所述录音数据以及声音数据依次输入至情绪检测模型，得到对应的情绪标签；所述情绪检测模型基于长短记忆模型训练所得；

判断所述录音数据对应的情绪标签与所述声音数据对应的情绪标签是否一致；若一致，则判定所述录音数据有效。

或者，在又一实施例中，所述计算所述声音特征向量与录音特征向量的相似度的步骤S502之后，包括：

若相似度大于阈值，则将所述录音数据以及声音数据依次输入至情绪检测模型，得到对应的情绪标签；所述情绪检测模型基于长短记忆模型训练所得；

参照图2，本申请一实施例中还提供了一种播放声音的录取装置，包括：

播放单元10，用于执行播放声音数据的动作；

采集单元20，用于执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；

读取单元30，用于读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；

替换单元40，用于将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。

在一实施例中，还包括：

第一写入单元，用于将所述声音数据写入喇叭播放接口中；

在另一实施例中，还包括：

设置单元，用于设置录音时的参数与播放声音数据时的参数一致；所述参数至少包括采样率、声道数。

在一实施例中，还包括：

第一识别单元，用于对所述声音数据进行语音识别，得到所述声音数据对应的第一文本；

第二识别单元，用于对所述录音数据进行语音识别，得到所述录音数据对应的第二文本；

判断单元，用于判断所述第一文本与所述第二文本是否一致；

第一判定单元，用于若一致，则判定所述录音数据有效。

在一实施例中，还包括：

提取单元，用于将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量，分别为声音特征向量、录音特征向量；

计算单元，用于计算所述声音特征向量与录音特征向量的相似度；

第二判定单元，用于若相似度大于阈值，则判定所述录音数据有效。

在本实施例中，上述提取单元包括：

第一提取子单元，用于分别提取所述声音数据以及所述录音数据的每一帧数据；

第二提取子单元，用于分别将所述声音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述声音数据中每一帧语音数据对应的第一向量，并将所述声音数据中所有帧语音数据对应的第一向量进行求和得到第一和向量，作为所述声音数据对应的声音特征向量；

第三提取子单元，用于分别将所述录音数据的每一帧语音数据依次输入至所述预设的神经网络中，提取出所述录音数据中每一帧语音数据对应的第二向量，并将所述录音数据中所有帧语音数据对应的第二向量进行求和得到第二和向量，作为所述录音数据对应的录音特征向量。

在本实施例中，上述装置实施例中的各个单元/子单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储声音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种播放声音的录取方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种播放声音的录取方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的播放声音的录取方法、装置、计算机设备和存储介质，包括：执行播放声音数据的动作；执行录音的动作，以采集空白的数据流；其中，录音时的参数与播放声音数据时的参数一致；读取buffer数据块中预存的所述声音数据；其中，预先申请有一个buffer数据块用于存储所述声音数据；将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据。本申请中录取的录音数据中，基于播放的声音数据的直接提取，有效屏蔽了环境噪声，提升录音效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种播放声音的录取方法，其特征在于，包括以下步骤：

执行播放声音数据的动作；

2.根据权利要求1所述的播放声音的录取方法，其特征在于，所述执行播放声音数据的动作的步骤之前，包括：

将所述声音数据写入喇叭播放接口中；

3.根据权利要求1所述的播放声音的录取方法，其特征在于，所述执行播放声音数据的动作的步骤之前，包括：

4.根据权利要求1所述的播放声音的录取方法，其特征在于，所述将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据的步骤之后，包括：

判断所述第一文本与所述第二文本是否一致；

若一致，则判定所述录音数据有效。

5.根据权利要求1所述的播放声音的录取方法，其特征在于，所述将所述声音数据替换空白的所述数据流，直至播放所述声音数据的动作停止，得到录取的录音数据的步骤之后，包括：

计算所述声音特征向量与录音特征向量的相似度；

若相似度大于阈值，则判定所述录音数据有效。

6.根据权利要求5所述的播放声音的录取方法，其特征在于，所述将所述声音数据以及所述录音数据分别输入至预设的神经网络中，以提取对应的特征向量的步骤，包括：

分别提取所述声音数据以及所述录音数据的每一帧数据；

7.一种播放声音的录取装置，其特征在于，包括：

播放单元，用于执行播放声音数据的动作；

8.根据权利要求7所述的播放声音的录取装置，其特征在于，还包括：

第一写入单元，用于将所述声音数据写入喇叭播放接口中；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。