CN114242120B

CN114242120B - 一种基于dtmf技术的音频剪辑方法及音频标记方法

Info

Publication number: CN114242120B
Application number: CN202111413158.8A
Authority: CN
Inventors: 郑颖龙; 李凯; 周昉昉; 赖蔚蔚; 吴广财; 郑杰生; 林嘉鑫; 陈颖璇; 叶杭; 黄恺彤; 曾朝霖; 许鑫禹; 黄宏恩
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2023-11-10
Anticipated expiration: 2041-11-25
Also published as: CN114242120A

Abstract

本申请实施例公开了一种基于DTMF技术的音频剪辑方法及音频标记方法，涉及音频处理技术领域。该基于DTMF技术的音频剪辑方法通过获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。以此，可以根据录制音频中的标记片段主动进行剪辑处理，使得剪辑时不需要再识别录制音频中语音的特征，从而使得剪辑过程更便捷，同时极大提高了剪辑结果地准确度。

Description

一种基于DTMF技术的音频剪辑方法及音频标记方法

技术领域

本申请涉及音频处理技术领域，更具体地，涉及一种基于DTMF技术的音频剪辑方法及音频标记方法。

背景技术

目前，在实际生活中，为了更加方便地对说话人所说内容进行记录，越来越多的人开始从文字记录转为通过音频进行记录，这样极大方便了后期进行内容整理。而为了进一步对音频中的关键内容进行提取，方便后续较准确找到目标内容，一般会将录制的完整音频根据实际需要剪辑为若干音频片段。

但在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中只能根据音频中的各种特征进行被动地进行盲剪辑，剪辑过程繁琐复杂，且剪辑结果完全依赖于对音频中说话者语音特征识别的精确度，导致剪辑结果的准确度不稳定。

发明内容

鉴于上述问题，本申请提出了一种基于DTMF技术的音频剪辑方法及音频标记方法。

第一方面，本申请实施例提供了一种基于DTMF技术的音频剪辑方法，该方法包括：获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，所述标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。

在一些实施例中，基于标记片段对录制音频进行剪辑处理，包括：根据标记片段在录制音频中的位置确定剪辑位置；基于剪辑位置将录制音频分为多个剪辑片段。

在一些实施例中，音频剪辑方法还包括：确定标记片段中的标记信息；根据标记信息对标记片段对应的剪辑片段进行标注。

在一些实施例中，音频剪辑方法还包括：基于标记信息对标注后的剪辑片段进行分类处理。

在一些实施例中，标记片段为音频播放设备或录音设备在进行语音录制的过程中，响应于标记操作生成。

在一些实施例中，标记片段为音频播放设备或录音设备在录音设备进行语音录制的过程中，响应于标记操作，并获取标记操作中的标记信息，从而基于标记信息生成。

第二方面，本申请实施例提供了一种基于DTMF技术的音频标记方法，该方法包括：在录音设备进行语音录制的过程中，响应于标记操作，生成标记片段，标记片段为携带标记信息的DTMF音频；播放标记片段，以使录音设备形成包括标记片段的录制音频。

在一些实施例中，响应于语音标记操作，生成语音标记音，包括：响应于标记操作，获取标记操作中的标记信息；根据标记信息生成标记片段。

第三方面，本申请实施例提供了一种基于DTMF技术的音频标记方法，该方法包括：在进行语音录制过程中，响应于标记操作，确定录制音频的当前录制位置；基于标记操作生成标记片段，标记片段为携带标记信息的DTMF音频；在录制音频的当前录制位置加入标记片段。

在一些实施例中，基于标记操作生成标记片段，包括：响应于标记操作，获取标记操作中的标记信息；根据标记信息生成标记片段。

本申请的基于DTMF技术的音频剪辑方法及音频标记方法，涉及音频处理技术领域。该基于DTMF技术的音频剪辑方法包括：获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。以此，可以根据录制音频中的标记片段主动进行剪辑处理，使得剪辑时不需要再识别录制音频中语音的特征，从而使得剪辑过程更便捷，同时极大提高了剪辑结果地准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于DTMF技术的音频剪辑方法的流程示意图；

图2是本申请实施例提供的基于DTMF技术的音频标记方法的流程示意图；

图3是本申请实施例提供的基于DTMF技术的音频标记方法的流程示意图；

图4是本申请实施例提供的基于DTMF技术的音频剪辑装置的结构示意图；

图5是本申请实施例提供的基于DTMF技术的音频标记装置的结构示意图；

图6是本申请实施例提供的基于DTMF技术的音频标记装置的结构示意图；

图7是本申请实施例提供的电子设备的结构示意图；

图8是本申请实施例提供的计算机可读取存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，在实际生活中，为了更加方便地对说话人所说内容进行记录，越来越多的人开始从文字记录转为通过音频进行记录，这样后期可反复回放音频，极大方便了后期进行内容整理。但由于生活中录制音频时很多情况下是长时间录制，每次回放想准确找到目标内容需要重新听录音，造成严重的时间浪费，使用体验感不好。因此为了进一步对音频中的关键内容进行提取，方便后续较准确找到目标内容，一般会将录制的完整音频根据需要剪辑为若干音频片段。

现有技术中常见的剪辑方法包括：直接完全依靠人工对音频听辨进行剪辑、根据特定时间进行剪辑、通过声纹识别等自动化手段进行剪辑等等。但这些剪辑方法全部属于被动处理，即根据识别到的音频特征从而进行剪辑，剪辑过程复杂繁琐，且剪辑结果完全依赖于对音频中说话者语音特征识别的精确度，导致剪辑结果的准确度不稳定

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，为了克服上述缺陷，本申请发明人提出了本申请提供的一种基于DTMF技术的音频剪辑方法及音频标记方法，涉及音频处理技术领域。该基于DTMF技术的音频剪辑方法通过获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。以此，可以根据录制音频中的标记片段主动进行剪辑处理，使得剪辑时不需要再识别录制音频中语音的特征，从而使得剪辑过程更便捷，同时极大提高了剪辑结果地准确度。

下面将结合具体实施例对其进行介绍。

请参阅图1，图1示出了本申请实施例提供的一种基于DTMF技术的音频剪辑方法，该音频剪辑方法可包括步骤110至步骤130。

在步骤110中，获取录制音频。

其中，录制音频为通过设备录制到的包含说话者语音的音频。

具体地，剪辑设备在获取到录制音频后，对录制音频进行剪辑处理。其中，剪辑设备指安装有用于剪辑录制音频的软件的设备。剪辑设备可以例如是笔记本电脑、台式电脑、平板电脑、智能手机等；剪辑录制音频的软件可以例如是Audacity、Adobe Audition、Ocenaudio等。具体剪辑设备的种类和剪辑设备上安装的用于剪辑录制音频的软件，可根据实际需要进行选择，本申请对此不作限制。

在一些实施方式中，剪辑设备可以通过使用本设备进行录音的方式，直接获得录制音频。例如，当剪辑设备为手机时，可以通过手机中的录音机软件进行录音，从而得到录制音频，之后再通过手机上安装的用于剪辑音频的软件对录制音频进行剪辑。

在一些实施方式中，也可以通过其他设备进行语音录制得到录制音频，之后其他设备再将录制音频传输至剪辑设备，由此剪辑设备获取得到录制音频。例如，当剪辑设备为电脑，语音录制的设备为手机时，可以通过手机中的录音机软件进行对说话者的语音进行录制得到录制音频，之后手机将录制音频传输至电脑，电脑获取得到录制音频后再通过安装的用于剪辑音频的软件对录制音频进行剪辑。

其中，其他设备可以通过网络与剪辑设备进行连接，这里所说的网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。此外，网络上还可以通过特定的通信协议进行通信传输，通信协议包括但不限于BLE(Bluetooth low energy，低功耗蓝牙)协议、WLAN(Wireless Local Area Network，无线局域网)协议、蓝牙协议、ZigBee(紫峰)协议或者Wi-Fi(Wireless Fidelity，无线保真)协议等。

在步骤120中，识别录制音频中的标记片段。

其中，标记片段为录制音频中起剪辑标识作用的音频片段，剪辑设备识别到标记信息后对录制音频进行剪辑，标记片段所在位置为剪辑设备剪辑录制音频的位置。例如，一段时长为10分钟(min)的录制音频，剪辑设备获取到该录制音频后识别到录制音频中时间为00:05:10～00:05:15的位置存在标记片段，则剪辑设备在标记片段所在位置进行剪辑，以使得到两段剪辑后的录制音频片段。

具体地，剪辑设备获取到录制音频后，识别录制音频中是否存在标记片段。若不存在标记片段则不对录制音频进行剪辑，若存在则根据标记片段对录制音频进行剪辑。其中，标记片段为进行语音录制的过程中，响应于标记操作生成。

在一些实施方式中，标记片段为区别于录制音频中说话者语音的音频片段。例如可以是歌曲、动物叫声、乐器声等。可以理解地，标记片段与说话者语音音频差别越大，辨识度越高，则标记作用越强，即剪辑设备越容易识别到标记片段。

在一些实施方式中，由于进行语音录制时录制环境多种多样，为了使标记片段在各种录制环境录制得到的录制音频中都能被剪辑设备清晰准确识别到，可以使用具有强鲁棒性的音频作为标记片段，例如DTMF(Dual Tone Multi Frequency，双音多频)音频。为了方便介绍，后续提到的标记片段均为DTMF音频。

在一些实施方式中，标记片段除了对剪辑位置起标识作用，还可以携带标记信息用于对录制音频中需要剪辑的录制音频片段进行标注，以使实现剪辑后对剪辑片段的自动标注，即标记片段为携带标记信息的DTMF音频。具体地，剪辑设备识别到标记片段后，确定标记片段中的标记信息，之后根据标记信息对标记片段对应的剪辑片段进行标注。

其中，标记信息可以为每个录制音频片段的特征信息。这些特征信息可以例如是说话者姓名、性别、年龄、录音时间等。具体标记信息中携带什么特征信息，可根据实际需要将其通过编码方式转换为DTMF音频，本申请对此不作限制。例如，在录音过程中存在多人说话，录音者为了后续方便根据每个人所说的内容进行剪辑，可以在不同人说话前插入携带说话人姓名、性别和职位信息的DTMF音频信号作为标记片段。

剪辑设备为了对录制音频中存在的DTMF音频进行识别检测，需要用到DTMF检测算法进行检测。DTMF检测算法可以例如是Goertzel算法、MUSIC算法等，还可以采用FFT(FastFourier Transform，快速傅里叶变换)频谱分析法、LPC(Linear Predictive Coding，线性预测编码)分析法等对DTMF音频进行识别。除此之外，还可以使用滤波器提取DTMF音频，对其进行识别。

进一步地，由于录制音频过程中可能存在环境杂音，导致得到的音频中无法准确分辨人声，因此可以使用相关语音增强技术从包含噪音的录制音频中消除环境噪音的影响。语音增强技术可以例如是滤波降噪法、维纳滤波法频谱复原法等，具体可根据实际需要进行选择，对此不作限制。

在一些实施方式中，标记操作可以是用户通过唤醒标记控件得到的操作。其中，唤醒标记控件的方式可以例如是点击、滑动、双击、语音等，具体唤醒方式可自行设置，本申请对此不作限制。

在一些实施方式中，当剪辑设备通过使用本设备进行录音得到录制音频时，标记操作可以为剪辑设备根据获取到的用户的行为生成的操作。具体地，剪辑设备在进行语音录制的过程中，根据标记操作生成标记片段，将标记片段在录制过程中需要剪辑的位置插入，从而得到包含标记片段的录制音频，录制完成后剪辑设备在音频剪辑软件中根据识别到的标记片段对录制音频进行剪辑。

在一些实施方式中，在语音录制过程中，根据实际需要在特定时间点插入标记片段时，可以中断对说话者的语音录入，中断后播放标记片段的音频，播放完成后再继续进行对说话者的语音进行录制。例如，对说话者的语音进行录制，在录制到00:02:11的位置需要插入标记片段，则示意说话者停止说话，同时播放标记片段音频，播放结束后说话者继续说话。又例如，播放已录制好的会议记录时，在播放到时间为00:03:07时需要插入标记片段，则暂停播放语音同时播放标记片段音频，播放结束继续播放语音。

在另一些实施方式中，语音录制过程中，当需要在特定时间加入标记片段时，为了不中断对说话者的语音录制，可以直接将标记片段插入该时间点。例如，在演讲现场录制演讲者的语音时，为了不中断演讲者的演讲，在当前录制时长为00:05:26的位置直接插入标记片段，也就是说在需要剪辑的位置插入标记片段但不播放该标记片段。

在步骤130中，基于标记片段对录制音频进行剪辑处理。

其中，剪辑处理是指将完整的录制音频分成若干录制音频片段。具体地，剪辑设备对获取的录制音频通过检测算法对其中存在的标记片段进行识别，若识别到标记片段，则根据标记片段对录制音频进行剪辑。

可选地，剪辑设备可以在获取到录制音频时识别整个录制音频中的标记片段，最后根据所有识别到的标记片段对录制音频进行剪辑，即一次性完成对整个录制音频的剪辑。可选地，剪辑设备也可以在获取到录制音频后播放录制音频，若在播放过程中识别到标记片段，则根据该标记片段再对录制音频进行剪辑，即边播放录制音频边剪辑。

在一些实施方式中，剪辑设备识别到标记片段后，根据标记片段在录制音频中的位置确定剪辑位置，然后基于剪辑位置将录制音频分为多个剪辑片段，即多个录制音频片段。其中，多个剪辑片段是指两个及两个以上剪辑片段。可以理解地，当存在一个标记片段时，通过剪辑可得到两个剪辑片段，因此不会出现一个剪辑片段的情况。

在一些实施方式中，根据标记片段在录制音频中的位置确定剪辑位置时，可以选择在标记片段的不同位置进行剪辑。可选地，剪辑设备识别到标记片段后，可以在识别到的标记片段的开始时刻进行剪辑。例如，一段时长为5小时(h)的录制音频中存在标记片段，该标记片段的位置为03:00:00～03:00:05，当剪辑设备识别到该标记片段后，在录制音频中时长为03:00:00的位置对录制音频进行剪辑。可选地，剪辑设备识别到标志片段后，也可以在识别到的标记片段的结束时刻进行剪辑。例如，一段时长为5h的录制音频中存在标记片段，该标记片段的位置为02:00:08～02:00:15，当剪辑设备识别到该标记片段后，在录制音频中时长为02:00:15的位置对录制音频进行剪辑。

在一些实施方式中，剪辑设备在根据识别到的标记片段对录制音频进行剪辑时，剪辑得到的剪辑片段中可以包括标记片段，也可以不包括标记片段。例如，一段时长为3min的录制音频中，在时长为00:02:00的位置存在唯一一个时长为3s的标记片段，剪辑设备识别到该标记片段后对录制音频在时长为00:02:00的位置进行剪辑，当剪辑片段中包括标记片段时，得到的剪辑片段分别为00:00:00～00:02:00和00:02:00～00:03:00；当剪辑片段中不包括标记片段时，得到的剪辑片段分别为00:00:00～00:02:00和00:02:03～00:03:00。

由于播放的DTMF音频用户无法听懂其携带了什么标记信息，所以剪辑设备识别到DTMF音频后需要确定DTMF音频的编码方式，再根据DTMF音频的编码方式确定对应的解码方式，对DTMF音频进行解码以使确定标记片段中携带的标记信息，从而根据标记信息标记片段对应的剪辑片段进行标注。在一些实施方式中，在根据标记片段中携带的标记信号对剪辑片段进行标注后，还可以基于标记信息对标注后的剪辑片段进行分类处理，以使后期方便快速查找不同类型的剪辑片段。其中，对剪辑片段进行标注的方式可以是通过保存该片段时，对其根据标记信息进行命名，还可以将标记信息同一保存至特定文档或数据库中。可以理解地，还可以有其他的标注方式，具体标注的方式可自行设置。

具体地，可以根据说话人的身份、年龄、性别等进行分类。进一步地，分类之后可以将不同类型的剪辑片段保存至同一文件夹中。根据需要，不同文件夹还可以合并为一个大文件夹。例如，有两个文件夹中分别保存有职员A和职员B的剪辑片段，但由于职员A和职员B同属于一个公司C，因此可以将两个文件夹合并为一个保存有公司C中职员语音剪辑片段的大文件夹。

在一些实施方式中，标记片段可以为录音设备或音频播放设备在进行语音录制的过程中，响应于标记操作生成。其中，录音设备为可以对语音进行录制从而得到录制语音的设备，音频播放设备为播放标记片段的设备。进一步地，标记片段还可以为音频播放设备或录音设备在录音设备进行语音录制的过程中，响应于标记操作，并获取标记操作中的标记信息，从而基于标记信息生成。即确定标记信息后，录音设备或音频播放设备生成标记操作时，基于标记信息生成标记片段，然后将其加入需要剪辑的位置。

可以理解地，当剪辑设备在本设备上录制语音时，剪辑设备就是录音设备；当剪辑设备只用于剪辑录制音频时，录音设备则为其他的用于录制语音的设备。在本实施例中，为了方便理解，后续内容中所说的剪辑设备与录音设备为不同的设备。

具体录音设备或音频播放设备响应于标记操作生成标记片段的过程将在后续实施例中进行详细介绍，在此不作展开。

由上可知，本申请实施例通过获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成,标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。以此，可以根据录制音频中的标记片段主动进行剪辑处理，使得剪辑时不需要再识别录制音频中语音的特征，从而使得剪辑过程更便捷，同时极大提高了剪辑结果地准确度。

请参阅图2，图2示出了本申请实施例提供的一种基于DTMF技术的音频标记方法，该音频标记方法可以包括步骤210至步骤220。

在步骤210中，在录音设备进行语音录制的过程中，响应于标记操作，生成标记片段。

其中，音频播放设备在录音设备对说话者进行语音录制的过程中，根据标记操作生成标记片段。具体地，录音设备在语音录制过程中的特定时间需要加入标记片段，音频播放设备在该时刻检测到标记操作，对标记操作进行响应生成标记片段。在本实施例中，标记片段为携带标记信息的DTMF音频，具体介绍可参照前文描述，在此不再赘述。

进一步地，在录音设备语音录制过程中，响应于标记操作，获取标记操作中的标记信息，并根据标记信息生成标记片段。其中，标记信息被携带于标记操作中，在录制音频过程中在需要进行剪辑的位置生成一个标记操作，该标记操作中包含该剪辑位置对应的剪辑片段的特征信息即标记信息。具体地，音频播放设备响应于检测到的标记操作，该标记操作中包含有标记信息，根据该标记信息音频播放设备可以通过编码得到标记片段。

在步骤220中，播放标记片段，以使录音设备形成包括标记片段的录制音频。

其中，音频播放设备响应于标记操作生成标记片段后，播放标记片段，以使录音设备将标记片段录入，最终形成包括标记片段的录制音频。后续播放录制音频时，在音频播放设备播放标记片段的位置可以听到标记片段。

在一些实施方式中，音频播放设备播放标记片段可以是由用户手动控制，例如，用户通过在音频播放设备上点击播放按钮或者按下播放键来播放标记片段。

在一些实施方式中，音频播放设备播放标记片段也可以是由音频播放设备控制。例如，给音频播放设备设置每当录音设备识别到“谢谢”时向音频播放设备发送播放标记片段的信号，音频播放设备获取到该信号后开始播放标记片段。

由上可知，本申请实施例提供的音频标记方法通过在录音设备进行语音录制的过程中，响应于标记操作，生成标记片段,标记片段为携带标记信息的DTMF音频；播放标记片段，以使录音设备形成包括标记片段的录制音频。以此，通过主动在录制音频中插入标记片段对特定剪辑点进行标注，以使剪辑设备根据录制音频中音频播放设备播放的标记片段，可以便捷方便地对录制音频进行剪辑。

请参阅图3，图3示出了本申请实施例提供的一种基于DTMF技术的音频标记方法，该音频标记方法可以包括步骤310至步骤330。

在步骤310中，在进行语音录制过程中，响应于标记操作，确定录制音频的当前录制位置。

其中，录音设备在进行语音录制过程中检测到有标记操作，根据标记操作录音设备判断要加入标记片段，因此需要确定录制音频当前的录制时间点即录制位置，以使在此位置加入标记片段。例如，录音设备在录音过程中检测到录制时间为01:19:57处有标记操作，确认需要加入标记片段，根据录制设备的当前录制时间可以确定当前录制位置为01:19:57处，因此需要在该位置加入标记片段。

在步骤320中，基于标记操作生成标记片段。

其中，在录音设备上检测到标记操作后，根据标记操作生成标记片段，用于标识录制音频中的剪辑位置以使剪辑设备在此位置对录制音频进行剪辑。具体地，响应于标记操作，获取标记操作中的标记信息，根据标记信息生成标记片段，标记片段为携带标记信息的DTMF音频。将需要剪辑的位置对应的剪辑片段的特征信息作为标记信息，响应到标记操作后标记信息通过编码的方式形成标记片段。由于生成标记片段的过程与剪辑设备和音频播放设备类似，具体生成过程可参照前述描述，在此不再进行赘述。

在步骤330中，在录制音频的当前录制位置加入标记片段。

其中，录制设备在得到标记片段后，在需要剪辑的当前录制位置直接加入标记片段。以使不需要播放标记片段，可以不中断地对说话者的语音进行录制，简化了录制音频的过程，提升用户体验感。

由上可知，本申请实施例提供的音频标记方法在进行语音录制过程中，响应于标记操作，确定录制音频的当前录制位置；基于标记操作生成标记片段，标记片段为携带标记信息的DTMF音频；在录制音频的当前录制位置加入标记片段。以此，录音设备在录音过程中可生成标记片段并在剪辑点将其加入录制音频中，以使可以不中断地对说话者的语音进行录制，从而简化了获得录制音频的过程。

请参阅图4，图4为本申请实施例提供的基于DTMF技术的音频剪辑装置的结构示意图，该基于DTMF技术的音频剪辑装置400可以包括录制模块410、识别模块420和剪辑模块430：

录制模块410，用于获取录制音频；

识别模块420，用于识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，标记片段为携带标记信息的DTMF音频；

剪辑模块430，用于基于标记片段对录制音频进行剪辑处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图5，图5为本申请实施例提供的一种基于DTMF技术的音频标记装置的结构示意图，该基于DTMF技术的音频标记装置500可以包括标记片段生成模块510和播放模块520；

标记片段生成模块510，用于在录音设备进行语音录制的过程中，响应于标记操作，生成标记片段，标记片段为携带标记信息的DTMF音频；

播放模块520，用于播放标记片段，以使录音设备形成包括标记片段的录制音频。

请参阅图6，图6为本申请实施例提供的另一种基于DTMF技术的音频标记装置的结构示意图，该基于DTMF技术的音频标记装置600可以包括位置确定模块610、生成模块620和标记模块630：

确定模块610，用于在进行语音录制过程中，响应于标记操作，确定录制音频的当前录制位置；

生成模块620，用于基于标记操作生成标记片段，标记片段为携带标记信息的DTMF音频；

标记模块630，用于在录制音频的当前录制位置加入标记片段。

请参阅图7，图7示出了本申请实施例提供的一种电子设备700的结构框图。该电子设备700可以是PC电脑、移动终端等能够运行应用程序的电子设备。本申请中的电子设备700可以包括一个或多个如下部件：处理器710、存储器720以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器720中并被配置为由一个或多个处理器710执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器710可以包括一个或者多个处理核。处理器710利用各种接口和线路连接整个电子设备700内的各个部分，通过运行或执行存储在存储器720内的指令、程序、代码集或指令集，以及调用存储在存储器720内的数据，执行电子设备700的各种功能和处理数据。可选地，处理器710可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器710中，单独通过一块通信芯片进行实现。

存储器720可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如录制音频功能、标记功能、剪辑功能、分类功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端700在使用中所创建的数据(比如录制音频、剪辑片段、标记信息)等。

请参阅图8，图8示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的基于DTMF技术的音频剪辑方法和音频标记方法。

计算机可读取存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中描述的基于DTMF技术的音频剪辑方法和音频标记方法。

本申请提出了一种基于DTMF技术的音频剪辑方法及音频标记方法，涉及音频处理技术领域。该音频剪辑方法通过获取录制音频；识别录制音频中的标记片段，标记片段为进行语音录制的过程中，响应于标记操作生成，标记片段为携带标记信息的DTMF音频；基于标记片段对录制音频进行剪辑处理。以此，可以根据录制音频中的标记片段主动进行剪辑处理，使得剪辑时不需要再识别录制音频中语音的特征，从而使得剪辑过程更便捷，同时极大提高了剪辑结果地准确度。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于DTMF技术的音频剪辑方法，其特征在于，所述方法包括：

获取录制音频；

识别所述录制音频中的标记片段，所述标记片段为进行语音录制的过程中，响应于标记操作生成以音频形式存在的标记片段，所述标记片段为携带标记信息的DTMF音频，所述标记信息为标记片段对应的特征信息，所述标记片段用于根据所述标记信息对应的特征信息对所述录制音频进行标注；

基于所述标记片段对所述录制音频进行剪辑处理；

所述基于所述标记片段对所述录制音频进行剪辑处理，包括：

根据所述标记片段在所述录制音频中的位置确定剪辑位置；

基于所述剪辑位置将所述录制音频分为多个剪辑片段。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述标记片段中的标记信息；

根据所述标记信息对所述标记片段对应的剪辑片段进行标注。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：基于所述标记信息对所述标注后的所述剪辑片段进行分类处理。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述标记片段为音频播放设备或录音设备在进行语音录制的过程中，响应于标记操作生成。

5.根据权利要求4所述的方法，其特征在于，所述标记片段为所述音频播放设备或所述录音设备在所述录音设备进行语音录制的过程中，响应于所述标记操作，并获取所述标记操作中的标记信息，从而基于所述标记信息生成。

6.一种基于DTMF技术的音频标记方法，其特征在于，所述方法包括：

在录音设备进行语音录制的过程中，响应于标记操作，生成以音频形式存在的标记片段，所述标记片段为携带标记信息的DTMF音频，所述标记信息为标记片段对应的特征信息，所述标记片段用于根据所述标记信息对应的特征信息对所述录制音频进行标注；

所述响应于语音标记操作，生成以音频形式存在的标记片段，包括：

响应于标记操作，获取所述标记操作中的标记信息；

根据所述标记信息生成标记片段；

播放所述标记片段，以使所述录音设备形成包括所述标记片段的录制音频。

7.一种基于DTMF技术的音频标记方法，其特征在于，所述方法包括：

在进行语音录制过程中，响应于标记操作，确定录制音频的当前录制位置；

基于所述标记操作生成的以音频形式存在的标记片段，所述标记片段为携带标记信息的DTMF音频，所述标记信息为标记片段对应的特征信息，所述标记片段用于根据所述标记信息对应的特征信息对所述录制音频进行标注；

所述基于所述标记操作生成的以音频形式存在的标记片段，包括：

响应于标记操作，获取所述标记操作中的标记信息；

根据所述标记信息生成标记片段；

在所述录制音频的所述当前录制位置加入所述标记片段。