CN107886975B

CN107886975B - 音频的处理方法、装置、存储介质及电子设备

Info

Publication number: CN107886975B
Application number: CN201711085769.8A
Authority: CN
Inventors: 王君龙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2020-03-10
Anticipated expiration: 2037-11-07
Also published as: CN107886975A

Abstract

本申请公开了一种音频的处理方法、装置、存储介质及电子设备。该方法包括：当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，该目标音频为以该第一音频开始处为起点且占音频总时长预设比例的音频；将该目标音频转换为文字，并输出该文字；若从用户处接收到预设信息，则录制第二音频；在该第一音频前插入该第二音频，得到新的音频文件，该第二音频的内容对应于在录制第一音频前该用户输出的需要录制的语音内容。本申请可以有效避免录制音频的过程中存在的遗漏录制用户在开始阶段输出的语音的问题。

Description

音频的处理方法、装置、存储介质及电子设备

技术领域

本申请属于音频技术领域，尤其涉及一种音频的处理方法、装置、存储介质及电子设备。

背景技术

许多终端上都具有录音功能。借助于录音功能，用户可以事先录制好一段特定的音频文件，并在某些场景下播放该录制好的音频文件。然而，在一些情况下，在用户录制音频的过程中，存在终端遗漏录制用户在开始阶段输出的语音的问题。

发明内容

本申请实施例提供一种的音频的处理方法、装置、存储介质及电子设备，可以有效避免录制音频的过程中存在的遗漏录制用户在开始阶段输出的语音的问题。

本申请实施例提供一种音频的处理方法，包括：

当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频；

将所述目标音频转换为文字，并输出所述文字；

若从用户处接收到预设信息，则录制第二音频；

在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容。

本申请实施例提供一种音频的处理装置，包括：

获取模块，用于当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频；

转换模块，用于将所述目标音频转换为文字，并输出所述文字；

录制模块，用于若从用户处接收到预设信息，则录制第二音频；

插入模块，用于在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容。

本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的音频的处理方法中的步骤。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的音频的处理方法中的步骤。

本实施例提供的音频的处理方法、装置、存储介质和电子设备，在检测到音频录制完毕后，终端可以从录制得到的第一音频中获取目标音频。该目标音频为以第一音频的开始处为起点且占音频总时长预设比例的音频。然后，终端可以将该目标音频转换为文字，并进行输出。之后，若从用户处接收到预设信息，则终端可以录制第二音频。该第二音频的内容对应于在录制第一音频前用户输出的需要录制的语音内容。之后，终端可以在第一音频前插入第二音频，从而得到新的音频文件。因此，本实施例通过将第二音频和第一音频拼接在一起的方式，可以有效避免录制音频的过程中存在的遗漏录制用户在开始阶段输出的语音的问题。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

图1是本申请实施例提供的在终端上实现点读功能的场景示意图。

图2是本申请实施例提供的音频的处理方法的流程示意图。

图3是本申请实施例提供的音频的处理方法的另一流程示意图。

图4A至图4D是本申请实施例提供的音频的处理方法的场景示意图。

图5是本申请实施例提供的音频的处理装置的结构示意图。

图6是本申请实施例提供的音频的处理装置的另一结构示意图。

图7是本申请实施例提供的移动终端的结构示意图。

图8是本申请实施例提供的移动终端的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

以下将详细说明。

在一种实施方式中，终端可以先获取点读样本，点读样本可以是图片、照片或者编码等。在获取到点读样本之后，终端可以获取多媒体样本，多媒体样本可以是音频文件或者视频文件等。然后，终端可以将获取到的点读样本和多媒体样本相关联。例如，终端将照片A和音频a关联，将照片B和音频b关联，将照片C和视频c关联。在将点读样本和多媒体样本关联之后，终端可以将这些样本数据保存在预设数据库中。

可以理解的是，在一些实施方式中，点读样本和多媒体样本之间可以是一一对应的关系，也可以是一对多的关系，或者多对一的关系等等，本实施例对此不做具体限定。

在使用点读功能时，用户可以先使用移动终端拍摄一张照片，或者从相册中选取一张照片，或者扫描某个编码。用户拍摄得到的照片或者选取的照片或者扫描得到的编码就是需要进行点读的对象。在获取到需要进行点读的对象之后，终端可以在预设数据库中查找与该需要进行点读的对象匹配的照片或者编码。若在预设数据库中存在与该需要进行点读的对象匹配的照片或编码，那么终端就可以查找与之关联的多媒体文件，并播放该多媒体文件。

在一种实施方式中，例如点读样本为照片A，该照片中包含三段文字，每一段文字都关联了一段音频。那么，当用户拍摄得到的照片与预设数据库中的照片A匹配时，由于照片A中包含有三段文字，且每段文字均关联有对应的一段音频，那么用户可以通过具体选取照片A中的某段文字的方式，选择播放其对应的音频。或者，用户也可以不作具体的选择，那么终端可以顺序播放三段文字对应的音频。

请参阅图1，例如，用户使用终端拍摄得到一张照片X，终端在预设数据库中查找到与照片X匹配的为照片A。照片A中包含三段文字，其中第一段文字关联音频甲，第二段文字关联音频乙，第三段文字关联音频丙。例如，如图 1所示，用户在屏幕上圈选了第二段文字所在的区域，那么终端可以对应播放音频乙。

可以理解的是，本实施例可以在移动终端上实现对某一对象(如照片)中的文本进行点读的功能，这种方式具有成本低、便捷性好等效果。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等的终端设备。

请参阅图2，图2是本申请实施例提供的音频的处理方法的流程示意图，流程可以包括：

在步骤S101中，当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，该目标音频为以该第一音频开始处为起点且占音频总时长预设比例的音频。

在实现点读功能之前，终端需要事先获取点读样本(如照片)和多媒体样本(如录制的音频)，并建立点读样本和多媒体样本之间的关联。然而，一些情况下，在用户录制音频的过程中，存在遗漏录制用户在开始阶段输出的语音的问题。例如，用户在T1时刻开始输出语音(如讲述故事)，并且用户以为终端已经开始录音。但实际上，终端是在T1之后的T2时刻才开始启动录音，那么用户在T1和T2之间输出的语音便没有被终端录制到，即终端遗漏录制用户在开始阶段输出的语音。

在本实施例的步骤S101中，终端可以在检测到一段音频录制完毕后，从录制得到的第一音频中获取一段目标音频。其中，该目标音频是以第一音频开始处为起点并且占该第一音频总播放时长预设比例的一段音频。

比如，目标音频是以第一音频开始处为起点并且占该第一音频总播放时长六分之一比例的一段音频，即目标音频是第一音频的前六分之一部分的音频。例如，第一音频的总播放时长为6分钟，那么目标音频即为第一音频的第一个一分钟这部分的音频。

在步骤S102中，将该目标音频转换为文字，并输出该文字。

比如，在从第一音频中获取到目标音频之后，终端可以对该目标音频进行语音识别，并将经过语音识别的音频转换为文字。同时，终端可以将该转换得到的文字输出，例如，显示在屏幕上，或语音输出，以使用户知晓目标音频的实际录制内容。

当采用将文字显示在屏幕上的方式时，在终端屏幕上用户就可以查看到刚才录制好的第一音频的开头部分的音频对应的文字，从而了解到第一音频开头部分的具体内容。通过这种方式，用户就可以判断出第一音频是否包含自己刚才输出的全部需要录制的语音内容。

此时，终端可以检测其是否从用户处接收到预设信息，该预设信息用于表示目标音频转换得到的文字中缺少在录制第一音频前由用户输出的并且需要录制的语音对应的文字。

若未从用户处接收到预设信息，那么可以认为终端已经将用户刚才输出的所有需要录制的语音全部录制到了。在这种情况下，终端可以执行其他操作，例如录制下一段音频。

若从用户处接收到预设信息，则进入步骤S103。

在步骤S103中，若从用户处接收到预设信息，则录制第二音频。

比如，终端从用户处接收到预设信息，那么可以认为终端未录制到用户在开始阶段输出的需要录制的语音。

例如，用户在T1时刻就开始输出语音(如讲述故事)，但实际上，终端是在T1之后的T2时刻才开始启动录音。那么，若从用户处接收到预设信息，则表明终端未录制到用户在T1和T2之间输出的语音。

在这种情况下，终端可以录制第二音频。即，终端可以为用户补录一段音频。这段补录的音频的内容对应于用户在录制第一音频前输出的需要录制的语音内容。

在步骤S104中，在该第一音频前插入该第二音频，得到新的音频文件，该第二音频的内容对应于在录制第一音频前该用户输出的需要录制的语音内容。

比如，在为用户重新录制第二音频之后，终端可以将该第二音频插入到第一音频之前。即，将第二音频和第一音频拼接在一起，从而得到一段新的音频文件。可以理解的是，该新的音频文件包含了刚才用户需要录制的全部语音内容。

例如，用户在T1时刻以为终端已经开始录音，并开始朗读古诗“登鹳雀楼，王之涣，白日依山尽，黄河入海流，欲穷千里目，更上一层楼。”。但事实上，终端是在T1之后的T2时刻才开始录音的。朗读完之后，用户停止录音，即终端可以检测到这段音频录制完毕。当检测到音频录制完毕后，终端可以从刚才录制得到的第一音频中获取目标音频。例如，该目标音频可以是以第一音频开始处为起点且占音频总播放时长四分之一比例的一端音频。即，目标音频是第一音频最开始的四分之一部分的一段音频。

然后，终端可以将目标音频转换为文字，并输出该文字。例如，在屏幕上显示出来的文字为“白日依山尽”。用户通过查看到由目标音频转换而来的文字“白日依山尽”发现这段第一音频不包含自己刚才朗读的这首古诗的诗名和作者部分的语音。在这种情况下，用户可以输入预设信息，该预设信息用于表示目标音频转换得到的文字中缺少在录制第一音频前用户已经输出的并且需要录制的语音对应的文字。即，预设信息表示刚才录制的第一音频缺少用户在T1 到T2时刻之间朗读的语音部分。

在从用户处接收到预设信息之后，终端可以为用户录制一段音频，即第二音频。该第二音频的内容对应于在录制第一音频前用户朗读的需要录制的语音内容。即，第二音频的语音内容为补录的“登鹳雀楼，王之涣”。

在录制得到第二音频后，终端可以在第一音频前插入第二音频，从而得到一段新的音频文件。可以理解的是，在该新的音频的内容为“登鹳雀楼，王之涣，白日依山尽，黄河入海流，欲穷千里目，更上一层楼。”，其中已经包含了用户需要录制的全部语音内容。

可以理解的是，本实施例通过将第二音频和第一音频拼接在一起的方式，可以有效避免音频录制过程中存在的遗漏录制用户在开始阶段输出的语音的问题。

请参阅图3，图3为本申请实施例提供的音频的处理方法的另一流程示意图，流程可以包括：

在步骤S201中，当检测到音频录制完毕后，终端从录制得到的第一音频中获取目标音频，该目标音频为以该第一音频开始处为起点且占音频总时长预设比例的音频。

比如，终端可以在检测到一段音频录制完毕后，从录制得到的第一音频中获取一段目标音频。其中，该目标音频是以第一音频开始处为起点并且占该第一音频总播放时长预设比例的一段音频。

比如，目标音频是以第一音频开始处为起点并且占该第一音频总播放时长六分之一比例的一段音频，即目标音频是第一音频的前六分之一部分的音频。例如，第一音频的总播放时长为6分钟，那么目标音频即为第一音频的第一个一分钟这部分时长的音频。

在步骤S202中，终端将该目标音频转换为文字，并输出该文字。

若从用户处接收到预设信息，则进入步骤S203。

在步骤S203中，若从用户处接收到预设信息，则终端录制第二音频，该预设信息表示该文字中缺少在录制第一音频前由该用户输出且需要录制的语音对应的文字，该第二音频的内容对应于在录制第一音频前该用户输出的需要录制的语音内容。

在步骤S204中，终端在该第一音频前插入该第二音频。

比如，在为用户重新录制第二音频之后，终端可以将该第二音频插入到第一音频之前。即，将第二音频和第一音频拼接在一起。

在步骤S205中，在第一音频前插入第二音频的插入位置的预设范围内，终端检测是否存在语音空白部分。

比如，在将第二音频和第一音频拼接之后，终端可以在第二音频和第一音频拼接位置的预设范围内，检测是否存在语音空白部分。

在一种实施方式中，终端可以通过如下方式来检测是否存在语音空白部分：

根据音频的频谱，终端检测是否存在语音空白部分。

例如，由于存在语音的音频部分和不存在语音的音频部分在频谱特性上具有明显区别，因此终端可以根据音频的频谱，检测在第二音频和第一音频拼接位置的预设范围内，检测是否存在语音空白部分。

如果检测到在第二音频和第一音频的拼接位置的预设范围内不存在语音空白部分，那么可以认为终端在录制第二音频的末尾部分时未引入语音空白部分，此时终端可以执行其它操作。

如果检测到在第二音频和第一音频的拼接位置的预设范围内存在语音空白部分，那么进入步骤S206。

在步骤S206中，若检测到存在语音空白部分，则终端获取该语音空白部分的时长。

比如，终端检测到在第二音频和第一音频的拼接位置存在语音空白部分，那么可以认为在录制第二音频时，在第二音频的末尾部分，用户已经不再发出语音了，但终端尚未停止录音，使得第二音频的末尾存在一段不包含用户语音的音频。在这种情况下，终端可以获取第二音频和第一音频的拼接位置的语音空白部分的时长。

在获取到该语音空白部分的时长后，终端可以检测该时长是否超过目标时长。

若检测到该时长未超过目标时长，则可以认为这段语音空白部分的时长较短。例如，可以认为这段语音空白部分属于用户正常的语句停顿的部分。

若检测到该时长超过目标时长，则进入步骤S207。

在步骤S207中，若检测到该语音空白部分的时长超过目标时长，则终端将该语音空白部分的时长缩减至目标时长，得到新的音频文件。

比如，终端检测到第二音频和第一音频的拼接位置的预设范围内存在的语音空白部分的时长超过了目标时长，那么可以认为这段语音空白部分过长，将影响到用户的体验。例如，这段语音空白部分是在录制第二音频时末尾部分引入的一段没有用户语音的空白部分。

在这种情况下，终端可以将这部分语音空白部分裁剪掉一部分，以将这部分语音空白部分的时长缩减到目标时长，从而得到一段新的音频文件。

在一种实施方式中，目标时长可以是用户正常的语句停顿需要的时间长度。例如，目标时长可以是1秒或者1.5秒，等等，此处举例不构成对本实施例的限定。

在一种实施方式中，本实施例可以采用如下方式来确定目标时长：

在音频录制过程中，根据录制到的语音，计算用户的语速；

根据该语速，确定出用于表示用户语句停顿的时间长度，并将该时间长度确定为目标时长。

比如，在录制第一音频或第二音频的过程中，终端可以根据录制到的语音，去计算用户的语速。例如，终端可以根据录制到的语音的波形或者频谱计算用户的语速。然后，终端可以根据计算得到的语速，确定出一个用于表示用户语句停顿的时间长度，并将该时间长度确定为目标时长。

在另一种实施方式中，本实施例还可以采用如下方式来确定目标时长：

根据第一音频的频谱，从第一音频中确定出多个语音空白部分；

获取各个语音空白部分的时长，得到多个时长值；

计算该多个时长值的平均值，并将该平均值确定为目标时长。

比如，终端可以根据已经录制得到的第一音频的频谱，从第一音频中确定出多个语音空白部分。这些语音空白部分可以认为是用户进行语句停顿时的部分。然后，终端可以获取该多个语音空白部分中的各个语音空白部分的时长，从而得到多个时长值。之后，终端可以计算这多个时长值的平均值，并将该平均值确定为目标时长。

可以理解的是，上述平均值可以表示用户在音频录制过程中进行语句停顿的平均时长。那么，将这一平均时长确定为目标时长可以比较符合用户进行语音输出的实际。

在一种实施方式中，本实施例可以采用如下方式来确定步骤S201中的预设比例：

获取录制得到的第一音频的总时长；

确定第一音频的总时长所处的预设时长区间；

获取所述预设时长区间对应的比例值，并将所述比例值确定为预设比例。

比如，在检测到音频录制完毕之后，终端可以获取录制得到的第一音频的总时长，然后确定出该第一视频的总时长所处的预设时长区间。之后，终端可以获取与该确定出来的预设时长区间对应的比例值，并将给比例值确定为预设比例。

例如，终端获取到第一音频的总时长为4分钟30秒，并确定出其处于4 分钟到5分钟这个预设时长区间。而与4分钟到5分钟这个预设时长区间对应的比例值为五分之一。那么，终端就可以将该比例值五分之一确定为本次的预设比例。即，终端获取到的目标音频为第一音频最开始的五分之一部分的音频。例如，目标音频为第一音频最前面的54秒的一段音频。

可以理解的是，本实施例中可以根据不同音频的总时长所处的不同区间，确定出用于获取目标音频的不同的预设比例。比如，可以是音频总时长越大，其对应的预设比例越小。例如，对于时长为4分钟30秒的音频，用于获取目标音频的预设比例为五分之一，而对于时长为8分钟的音频，用于获取目标音频的预设比例可以为八分之一。这样的话，终端均只需要获取音频最初的一分钟的那一段音频。这可以提高终端获取目标音频的灵活性。

在另一种实施方式中，在从录制得到的音频中获取目标音频时，终端还可以获取预设时长的音频。例如，不论录制得到的音频的时长为多长，终端均只获取其最初的一分钟的那一段音频。而对于总时长不足预设时长的音频，终端可以将整段音频确定为目标音频，等等。

在一种实施方式中，在得到新的音频文件的步骤之后，本实施例还可以包括如下步骤：

终端获取点读样本，并将该点读样本和得到的新的音频文件关联；

终端获取待点读的对象；

若检测到该待点读的对象和该点读样本匹配成功，则终端播放与该点读样本关联的该新的音频文件。

比如，在第一音频前插入第二音频从而得到新的音频文件Y之后，终端可以获取一点读样本，例如该获取的点读样本为照片P1。然后，终端可以将该照片P和该音频文件Y关联在一起。

之后，当用户拍摄一张需要对其内容进行点读的照片P2，即终端获取到待点读的照片P2之后，终端可以在预设数据库中查找与该待点读的照片P2匹配的样本照片。

例如，终端在预设数据库中查找到点读样本照片P1和该待点读的照片P2 匹配成功。此时，终端可以获取与照片P1关联的音频文件Y，并播放该音频文件Y。

请参阅图4A至图4D，图4A至图4D为本申请实施例提供的音频的处理方法的场景示意图。

比如，用户对着某一页教材页面拍摄了一张照片，将其确定为照片样本。之后，用户需要录制一段音频，并录制的该音频确定为音频样本，以及将该照片样本和音频样本关联，以便后续可以实现点读功能。

例如，用户在T1时刻以为终端已经开始录音，并开始朗读古诗，其中用户朗读的第一首古诗的内容为“登鹳雀楼，王之涣，白日依山尽，黄河入海流，欲穷千里目，更上一层楼。”。但是，终端是在T1之后的T2时刻才开始录音的。

在用户录制音频的过程中，当检测到音频录制完毕后，例如终端检测到用户点击了界面上的“结束录音”按钮，如图4A所示。此时，终端可以获取刚才录制得到的第一音频的总时长。例如，终端获取到刚才录制得到的第一音频的总时长为1分钟40秒。然后，终端可以从第一音频中获取目标音频，该目标音频为第一音频的最初十分之一部分的音频。即，目标音频为从第一音频的开始处为起点，以第一音频的第10秒为终点的这段连续音频。

在得到目标音频之后，终端可以对该目标音频进行语音识别，并将经过语音识别的音频转换为文字。例如，经过转换后得到的文字为“白日依山尽”。之后，终端可以将该转换得到的文字显示在屏幕上，以供用户查看，如图4B 所示。

在屏幕上用户可以查看到刚才录制好的第一音频的开头部分的音频对应的文字，从而了解到第一音频开头部分的具体内容。例如，用户通过查看到文字“白日依山尽”，就可以发现刚才朗读的的古诗的诗名和作者名称没有被录制到。

在这种情况下，如图4C所示，用户点击了屏幕界面上的“是”按钮，以补录一段音频。在接收到这一信息之后，终端可以为用户补录一段音频，即第二音频。该第二音频的语音内容为补录的“登鹳雀楼，王之涣”，其场景如图 4D所示。

在录制得到第二音频后，终端可以在第一音频前插入第二音频，即把第二音频和第一音频拼接在一起，从而得到一段新的音频文件，即第三音频。可以理解的是，该第三音频的内容为“登鹳雀楼，王之涣，白日依山尽，黄河入海流，欲穷千里目，更上一层楼。”。

之后，终端可以检测在第二音频和第一音频的拼接位置的预设范围内，检测是否存在语音空白部分。例如，终端检测到上述拼接位置的预设范围内存在语音空白部分。然后，终端可以获取该语音空白部分的时长。例如，终端获取到该语音空白部分的时长为4秒钟。即，在语音“王之涣”和语音“白日依山尽”之间存在一段4秒钟的语音空白部分。这段空白可以认为是在录制第二音频时，在末尾部分用户未及时点击“结束录音”按钮，所引入的语音空白部分。

由于终端检测到上述语音空白部分的时长4秒钟超过了目标时长1秒钟，那么终端可以对这段语音空白部分进行裁剪，以将语音空白部分的时间长度缩减到1秒钟。即，经过裁剪后，在语音“王之涣”和语音“白日依山尽”之间的语音空白部分由4秒钟变为了1秒钟。可以理解的是，经过裁剪后，第三音频中原第二音频和原第一音频之间的衔接变得更加贴近用户在实际朗读中的语句停顿。

请参阅图5，图5为本申请实施例提供的音频的处理装置的结构示意图。音频的处理装置300可以包括：获取模块301，转换模块302，录制模块303，以及插入模块304。

获取模块301，用于当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频。

比如，终端可以在检测到一段音频录制完毕后，触发获取模块301从录制得到的第一音频中获取一段目标音频。其中，该目标音频是以第一音频开始处为起点并且占该第一音频总播放时长预设比例的一段音频。

转换模块302，用于将所述目标音频转换为文字，并输出所述文字。

比如，在获取模块301从第一音频中获取到目标音频之后，转换模块302 可以对该目标音频进行语音识别，并将经过语音识别的音频转换为文字。同时，转换模块302可以将该转换得到的文字输出，例如，显示在屏幕上，或语音输出，以使用户知晓目标音频的实际录制内容。

录制模块303，用于若从用户处接收到预设信息，则录制第二音频。

在这种情况下，录制模块303可以录制第二音频。即，录制模块303可以为用户补录一段音频。这段补录的音频的内容对应于用户在录制第一音频前输出的需要录制的语音内容。

插入模块304，用于在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容。

比如，在录制模块303为用户重新录制第二音频之后，插入模块304可以将该第二音频插入到第一音频之前。即，将第二音频和第一音频拼接在一起，从而得到一段新的音频文件。可以理解的是，该新的音频文件包含了刚才用户需要录制的全部语音内容。

请一并参阅图6，图6为本申请实施例提供的音频的处理装置的另一结构示意图。在一实施例中，音频的处理装置300还可以包括：检测模块305，计算模块306，以及点读模块307。

检测模块305，用于在所述第一音频前插入所述第二音频的插入位置的预设范围内，检测是否存在语音空白部分；若检测到存在语音空白部分，则获取所述语音空白部分的时长；若检测到所述语音空白部分的时长超过目标时长，则将所述语音空白部分的时长缩减至目标时长。

比如，在插入模块304将第二音频和第一音频拼接之后，检测模块305可以在第二音频和第一音频拼接位置的预设范围内，检测是否存在语音空白部分。

如果检测到在第二音频和第一音频的拼接位置的预设范围内存在语音空白部分，那么可以认为在录制第二音频时，在第二音频的末尾部分，用户已经不再发出语音了，但终端尚未停止录音，使得第二音频的末尾存在一段不包含用户语音的音频。在这种情况下，检测模块305可以获取第二音频和第一音频的拼接位置的语音空白部分的时长。

在获取到该语音空白部分的时长后，检测模块305可以检测该时长是否超过目标时长。

若检测到该时长超过目标时长，那么可以认为这段语音空白部分过长，将影响到用户的体验。例如，这段语音空白部分是在录制第二音频时末尾部分引入的一段没有用户语音的空白部分。

在这种情况下，检测模块305可以将这部分语音空白部分裁剪掉一部分，以将这部分语音空白部分的时长缩减到目标时长，从而得到一段新的音频文件。

在一种实施方式中，所述检测模块305可以用于根据音频频谱，检测是否存在语音空白部分。

例如，由于存在语音的音频部分和不存在语音的音频部分在频谱特性上具有明显区别，因此检测模块305可以根据音频的频谱，检测在第二音频和第一音频拼接位置的预设范围内，检测是否存在语音空白部分。

计算模块306，用于根据所述第一音频的频谱，从所述第一音频中确定出多个语音空白部分；获取各个语音空白部分的时长，得到多个时长值；计算所述多个时长值的平均值，并将所述平均值确定为目标时长。

比如，在一种实施方式中，终端可以通过计算模块306来得到检测模块305 中需要使用的目标时长。例如，计算模块306可以根据已经录制得到的第一音频的频谱，从第一音频中确定出多个语音空白部分。这些语音空白部分可以认为是用户进行语句停顿时的部分。然后，计算模块306可以获取该多个语音空白部分中的各个语音空白部分的时长，从而得到多个时长值。之后，计算模块 306可以计算这多个时长值的平均值，并将该平均值确定为目标时长。

在另一种实施方式中，计算模块306可以用于在音频录制过程中，根据录制到的语音，计算用户的语速；根据所述语速，确定出用于表示用户语句停顿的时间长度，并将所述时间长度确定为目标时长。

比如，在录制第一音频或第二音频的过程中，计算模块306可以根据录制到的语音，去计算用户的语速。例如，终端可以根据录制到的语音的波形或者频谱计算用户的语速。然后，计算模块306可以根据计算得到的语速，确定出一个用于表示用户语句停顿的时间长度，并将该时间长度确定为目标时长。

点读模块307，用于获取点读样本，并将所述点读样本和得到的新的音频文件关联；获取待点读的对象；若检测到所述待点读的对象和所述点读样本匹配成功，则播放与所述点读样本关联的所述新的音频文件。

比如，在第一音频前插入第二音频从而得到新的音频文件Y之后，点读模块307可以获取一点读样本，例如该获取的点读样本为照片P1。然后，点读模块307可以将该照片P和该音频文件Y关联在一起。

之后，当用户拍摄一张需要对其内容进行点读的照片P2，即点读模块307 获取到待点读的照片P2之后，点读模块307可以在预设数据库中查找与该待点读的照片P2匹配的样本照片。

例如，点读模块307在预设数据库中查找到点读样本照片P1和该待点读的照片P2匹配成功。此时，点读模块307可以获取与照片P1关联的音频文件Y，并播放该音频文件Y。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的音频的处理方法中的步骤。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的音频的处理方法中的步骤。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图7，图7为本申请实施例提供的移动终端的结构示意图。

该移动终端400可以包括显示单元401、存储器402、处理器403、麦克风 404等部件。本领域技术人员可以理解，图7中示出的移动终端结构并不构成对移动终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

显示单元401可以终端的显示屏幕。

存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序，从而执行各种功能应用以及数据处理。

处理器403是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器402内的应用程序，以及调用存储在存储器402内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。

麦克风404可以用于拾取用户发出的语音。

在本实施例中，移动终端中的处理器403会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中，并由处理器 403来运行存储在存储器402中的应用程序，从而实现步骤：

将所述目标音频转换为文字，并输出所述文字；

若从用户处接收到预设信息，则录制第二音频；

请参阅图8，移动终端500可以包括显示单元501、存储器502、处理器503、输入单元504、输出单元505、扬声器506、麦克风507等部件。

显示单元501可以是终端的显示屏幕等。

存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序，从而执行各种功能应用以及数据处理。

处理器503是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器502内的应用程序，以及调用存储在存储器502内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。

输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

输出单元505可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。

扬声器506可以用于播放音频内容。

麦克风507可以用于拾取用户发出的语音等。

在本实施例中，移动终端中的处理器503会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中，并由处理器 503来运行存储在存储器502中的应用程序，从而实现步骤：

当检测到音频录制完毕后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频；将所述目标音频转换为文字，并输出所述文字；若从用户处接收到预设信息，则录制第二音频；在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容。

在一种实施方式中，处理器503在执行所述在所述第一音频前插入所述第二音频的步骤之后，还可以执行：在所述第一音频前插入所述第二音频的插入位置的预设范围内，检测是否存在语音空白部分；若检测到存在语音空白部分，则获取所述语音空白部分的时长；若检测到所述语音空白部分的时长超过目标时长，则将所述语音空白部分的时长缩减至目标时长。

在一种实施方式中，处理器503还可以执行：根据所述第一音频的频谱，从所述第一音频中确定出多个语音空白部分；获取各个语音空白部分的时长，得到多个时长值；计算所述多个时长值的平均值，并将所述平均值确定为目标时长。

在一种实施方式中，处理器503还可以执行：在音频录制过程中，根据录制到的语音，计算用户的语速；根据所述语速，确定出用于表示用户语句停顿的时间长度，并将所述时间长度确定为目标时长。

在一种实施方式中，处理器503在执行所述检测是否存在语音空白部分的步骤时，可以执行：根据音频频谱，检测是否存在语音空白部分。

在一种实施方式中，处理器503在执行所述得到新的音频文件的步骤之后，还可以执行：获取点读样本，并将所述点读样本和得到的新的音频文件关联；获取待点读的对象；若检测到所述待点读的对象和所述点读样本匹配成功，则播放与所述点读样本关联的所述新的音频文件。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频的处理方法的详细描述，此处不再赘述。

本申请实施例提供的所述音频的处理装置与上文实施例中的音频的处理方法属于同一构思，在所述音频的处理装置上可以运行所述音频的处理方法实施例中提供的任一方法，其具体实现过程详见所述音频的处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述音频的处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述音频的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述音频的处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read OnlyMemory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种音频的处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频的处理方法，其特征在于，包括：

当检测到需与点读样本相关联的音频录制结束后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频，所述预设比例根据所述音频总时长设定；

将所述目标音频转换为文字，并输出所述文字，用户根据所述文字内容判断是否触发预设信息；

若从用户处接收到预设信息，则录制第二音频；

在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容；

获取点读样本，并将所述点读样本和得到的新的音频文件关联；

获取待点读的对象；

若检测到所述待点读的对象和所述点读样本匹配成功，则播放与所述点读样本关联的所述新的音频文件。

2.根据权利要求1所述的音频的处理方法，其特征在于，所述在所述第一音频前插入所述第二音频步骤之后，还包括：

在所述第一音频前插入所述第二音频的插入位置的预设范围内，检测是否存在语音空白部分；

若检测到存在语音空白部分，则获取所述语音空白部分的时长；

若检测到所述语音空白部分的时长超过目标时长，则将所述语音空白部分的时长缩减至目标时长。

3.根据权利要求2所述的音频的处理方法，其特征在于，所述方法还包括：

根据所述第一音频的频谱，从所述第一音频中确定出多个语音空白部分；

获取各个语音空白部分的时长，得到多个时长值；

计算所述多个时长值的平均值，并将所述平均值确定为目标时长。

4.根据权利要求2所述的音频的处理方法，其特征在于，所述方法还包括：

在音频录制过程中，根据录制到的语音，计算用户的语速；

根据所述语速，确定出用于表示用户语句停顿的时间长度，并将所述时间长度确定为目标时长。

5.根据权利要求3或4所述的音频的处理方法，其特征在于，所述检测是否存在语音空白部分，包括：

根据音频频谱，检测是否存在语音空白部分。

6.一种音频的处理装置，其特征在于，包括：

获取模块，用于当检测到需与点读样本相关联的音频录制结束后，从录制得到的第一音频中获取目标音频，所述目标音频为以所述第一音频开始处为起点且占音频总时长预设比例的音频，所述预设比例根据所述音频总时长设定；

转换模块，用于将所述目标音频转换为文字，并输出所述文字，用户根据所述文字内容判断是否触发预设信息；

插入模块，用于在所述第一音频前插入所述第二音频，得到新的音频文件，所述第二音频的内容对应于在录制第一音频前所述用户输出的需要录制的语音内容；

点读模块，用于获取点读样本，并将所述点读样本和得到的新的音频文件关联，获取待点读的对象，若检测到所述待点读的对象和所述点读样本匹配成功，则播放与所述点读样本关联的所述新的音频文件。

7.根据权利要求6所述的音频的处理装置，其特征在于，所述装置还包括：检测模块，用于

8.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至5中任一项所述的音频的处理方法。

9.一种电子设备，包括存储器，处理器，其特征在于，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至5中任一项所述的音频的处理方法。