CN115550503A

CN115550503A - 一种生成多种音效的方法、装置和终端设备

Info

Publication number: CN115550503A
Application number: CN202110741096.7A
Authority: CN
Inventors: 倪弘沣; 许梓健; 金伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-12-30
Anticipated expiration: 2041-06-30
Also published as: WO2023273440A1; CN115550503B

Abstract

本申请提供了生成多种音效的方法、装置和终端设备，涉及音频技术领域。其中，所述方法包括：确定第一音频数据；提取第一音频数据中的旋律信息；接收第一操作指令，并基于第一操作指令，确定至少一个应用场景；根据预设的音频文件，生成适用于各个应用场景的音频数据，音频文件包括不同应用场景对应的旋律信息。本申请中，在得到用户确定的音乐后，截取该音乐中一个或多个的特定音乐片段，提取特定音乐片段中的旋律，如果将特定音乐片段应用在不同应用场景时，则将特定音乐片段中的旋律替换成不同应用场景中设定的旋律，使得特定音乐片段可以作为不同应用场景的铃声，提升终端在不同应用场景下的个性化设计，且会延长用户对选定音乐产生厌恶感的时间。

Description

一种生成多种音效的方法、装置和终端设备

技术领域

本发明涉及音频技术领域，尤其涉及一种生成多种音效的方法、装置和终端设备。

背景技术

现有的终端设备中，如智能手机、笔记本电脑、平板等等，都具有提醒功能。其中，音频模块播放铃声、提示音等音频信号，是实现提醒功能的最为常见方法之一。以提示音为例，现有终端设备上的提示音都是终端设备出厂时已经设置好的，用户只能从固定的几种提示音中选择一个作为自己终端设备的提示音，不仅缺乏个性化，而且随着时间的推移，用户会对选定的音乐产生厌恶感。

发明内容

为了解决上述的问题，本申请的实施例提供了一种生成多种音效的方法、装置和终端设备，通过改变选定音频信号的旋律，使得应用于不同场景下的音频信号不仅具有个性化，而且延长用户产生厌恶感时间。

为此，本申请的实施例采用如下技术方案：

第一方面，本申请提供一种生成多种音效的方法，包括：确定第一音频数据；提取所述第一音频数据中的旋律信息；接收第一操作指令，并基于所述第一操作指令，确定至少一个应用场景；根据预设的音频文件，生成适用于所述各个应用场景的音频数据，所述音频文件包括不同应用场景对应的旋律信息。

在该实施方式中，在得到用户确定的音乐后，截取该音乐中一个或多个的特定音乐片段，然后提取特定音乐片段中的旋律，如果将特定音乐片段应用在不同应用场景时，则将特定音乐片段中的旋律替换成不同应用场景中设定的旋律，使得特定音乐片段可以作为不同应用场景的铃声，提升终端在不同应用场景下的个性化设计，且会延长用户对选定音乐产生厌恶感的时间。

在一种实施方式中，在所述确定第一音频数据之前，包括：接收第二操作指令，并基于所述第二操作指令，选择出原始音频数据；按照设定规则，截取出所述原始音频数据中所述至少一个目标音频数据，所述至少一个目标音频数据包括所述第一音频数据。

在该实施方式中，原始音频数据一般可以为终端设备中自带的音频数据，也可以是用户根据自己爱好，从第三方应用程序中选择。一般用户选择的音频数据播放时间比较长，所以需要对其进行截取，截取出符合要求的时长或用户喜欢的音乐片段，以便后续作为不同应用场景下的音频数据，是用户最喜欢的，从而延长用户对选定音乐产生厌恶感的时间。

在一种实施方式中，所述提取所述第一音频数据中的旋律信息，包括：根据所述第一音频数据，计算出所述第一音频数据中的至少一个谱峰；根据所述至少一个谱峰在频域上的位置，计算所述至少一个谱峰对应的显著性；根据所述至少一个谱峰和所述至少一个谱峰对应的频率，构建音高轮廓；通过音高轮廓滤波，选择出第一显著性的音高轮廓作为所述第一音频数据的旋律信息。

在一种实施方式中，所述根据预设的音频文件，生成适用于所述各个应用场景的音频数据，包括：根据所述预设的音频文件，确定所述各个应用场景对应的旋律信息；将所述第一音频数据中的旋律信息替换成所述各个应用场景对应的旋律信息，得到适用于所述各个应用场景的音频数据。

在该实施方式中，通过对音频信号中旋律进行替换，将已经设定的不同应用场景对应的旋律替换到选定音频数据中，使得选定的音频数据可以转换成不同应用场景下的音频数据，增加音频数据的丰富度和操作简便性。

在一种实施方式中，所述旋律信息包括旋律类型、音色和节奏，所述根据预设的音频文件，生成适用于所述各个应用场景的音频数据，包括：接收第三操作指令，并基于所述第三操作指令，将所述第一音频数据中的所述旋律类型、音色和节奏替换成所述各个应用场景对应的所述旋律类型、音色和节奏。

在该实施方式中，一般而言，音乐的旋律类型、音色和节奏是用户最容易感知的不同的因素，所以通过对音频数据中的旋律类型、音色和节奏进行改变，可以更加直观的让用户感受不到音乐的不同，从而以最简单的方式将音频数据转换成不同应用场景的音频数据。

在一种实施方式中，所述音频文件还包括不同应用场景对应的时间长度，所述方法还包括：将所述适用于所述各个应用场景的音频数据的播放时间长度调整成所述各个应用场景对应的时间长度。

在该实施方式中，一般而言，不同的应用场景下播放音频信号的时长是不相同的，如提示音一般在1-2s左右，闹钟播放时长在几十秒左右，而截取的音频数据大概率和每个应用场景的播放时长是不相同，所以需要对音频信号的播放时长进行调节，如快速播放或慢速播放等方式，将音频信号调整到适用于不同应用场景下的播放时长。

在一种实施方式中，所述方法还包括：确定第二音频数据；提取所述第二音频数据中的旋律信息；根据所述音频文件，生成适用于所述各个应用场景的音频数据。

在该实施方式中，针对不同的应用场景，如果采用一个音频信号，也是会容易造成用户会对选定的音乐产生厌恶感，所以用户可以选用两个或两个以上的音频数据，可以对不同的应用场景，选用不同的音频数据，从而进一步提升终端在不同应用场景下的个性化设计，且会延长用户对选定音乐产生厌恶感的时间。

第二方面，本申请实施例还提供了一种生成多种音效的装置，包括：处理单元，用于确定第一音频数据；所述处理单元，还用于提取所述第一音频数据中的旋律信息；收发单元，用于接收第一操作指令；所述处理单元，还用于基于所述第一操作指令，确定至少一个应用场景；以及根据预设的音频文件，生成适用于所述各个应用场景的音频数据，所述音频文件包括不同应用场景对应的旋律信息。

在一种实施方式中，所述收发单元，还用于接收第二操作指令，并基于所述第二操作指令，选择出原始音频数据；所述处理单元，还用于按照设定规则，截取出所述原始音频数据中所述至少一个目标音频数据，所述至少一个目标音频数据包括所述第一音频数据。

在一种实施方式中，所述处理单元，具体用于根据所述第一音频数据，计算出所述第一音频数据中的至少一个谱峰；根据所述至少一个谱峰在频域上的位置，计算所述至少一个谱峰对应的显著性；根据所述至少一个谱峰和所述至少一个谱峰对应的频率，构建音高轮廓；通过音高轮廓滤波，选择出第一显著性的音高轮廓作为所述第一音频数据的旋律信息。

在一种实施方式中，所述处理单元，具体用于根据所述预设的音频文件，确定所述各个应用场景对应的旋律信息；将所述第一音频数据中的旋律信息替换成所述各个应用场景对应的旋律信息，得到适用于所述各个应用场景的音频数据。

在一种实施方式中，所述旋律信息包括旋律类型、音色和节奏，所述处理单元，具体用于接收第三操作指令，并基于所述第三操作指令，将所述第一音频数据中的所述旋律类型、音色和节奏替换成所述各个应用场景对应的所述旋律类型、音色和节奏。

在一种实施方式中，所述音频文件还包括不同应用场景对应的时间长度，所述处理单元，还用于将所述适用于所述各个应用场景的音频数据的播放时间长度调整成所述各个应用场景对应的时间长度。

在一种实施方式中，所述处理单元，还用于确定第二音频数据；所述处理单元，还用于提取所述第二音频数据中的旋律信息；以及根据所述音频文件，生成适用于所述各个应用场景的音频数据。

第三方面，本申请实施例还提供了一种终端设备，包括至少一个处理器，所述处理器用于执行存储器中存储的指令，以使得终端设备执行如第一方面各个可能实现的是实施例。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行如第一方面各个可能实现的是实施例。

第五方面，本申请实施例还提供了一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时，使得所述计算机实现如第一方面各个可能实现的是实施例。

附图说明

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1为本申请实施例中提供的一种终端的硬件结构示意图；

图2为本申请实施例中提供的显示屏显示音乐卡片的示意图；

图3为本申请实施例中提供的一种终端的软件结构示意图；

图4为本申请实施例中提供的显示屏显示选择系统铃声的界面示意图；

图5为本申请实施例中提供的县食品显示如何被动截取音乐片段的界面示意图；

图6为本申请实施例中提供的解析后的音乐片段的峰值分布示意图；

图7为本申请实施例中提供的解析后的音乐片段的频率分布示意图；

图8为本申请实施例中提供的旋律提取流程示意图；

图9为本申请实施例中提供的音色为钢琴的音高对应的频率分布图；

图10为本申请实施例中提供的应用场景为来电铃声时的旋律类型选取界面示意图；

图11为本申请实施例中提供的选定不同应用场景构建一个主题的界面示意图；

图12为本申请实施例中提供的构建不同主题的界面示意图；

图13为本申请实施例中提供的一种生成多种音效的方法的流程示意图；

图14为本申请实施例中提供的一种生成多种音效的装置的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个终端是指两个或两个以上的终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1为本申请实施例提供的一种终端的硬件结构示意图。如图1所示，该终端100可以包括处理器101、存储器102和收发器103。

其中，处理器101可以是通用处理器或者专用处理器。例如，处理器101可以包括中央处理器(central processing unit，CPU)和/或基带处理器。其中，基带处理器可以用于处理通信数据，CPU可以用于实现相应的控制和处理功能，执行软件程序，处理软件程序的数据。示例性的，处理器101可以基于设定规则，从音频数据中截取部分音频数据，然后提取出部分音频数据中的旋律，如调式、节奏、节拍、力度、音色(表演方法方式)等。处理器101也可以修改截取出的音频数据中的旋律，如修改成不同的节奏和音色，使得截取出的音频数据产生不同的音效。

存储器102上可以存有程序(也可以是指令或者代码)，程序可被处理器101运行，使得处理器101执行本方案中描述的方法。可选地，存储器102中还可以存储有数据。例如，处理器101可以读取存储器102中存储的数据(例如，音频数据等)，该数据可以与程序存储在相同的存储地址，该数据也可以与程序存储在不同的存储地址。本方案中，处理器101和存储器102可以单独设置，也可以集成在一起，例如，集成在单板或者系统级芯片(systemon chip，SOC)上。

收发器103可以实现信号的输入(接收)和输出(发送)。例如，收发器103可以包括收发器或射频芯片。收发器103还可以包括通信接口。示例性的，终端100可以通过收发器103将产生不同音效的音频数据发送至其它模块或其它设备，如扬声器、音响、车辆等等，可以通过终端100或其它设备上的扬声器播放该音频数据。此外，终端100也可以通过收发器103从服务器接收音频数据等。

可选地，终端100中可以包括显示屏104。该显示屏104可以显示终端100所播放音乐的音乐卡片。示例性的，终端100上显示的音乐卡片可以为图2中所示的音乐卡片21。在一个例子中，显示屏104还可以用于显示应用程序的界面，显示应用程序的显示窗口等。

可选地，终端100中可以包括音频模块105。该音频模块105可以将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块105还可以对音频信号编码和解码。在一些示例中，音频模块105可以设置于处理器101中，或将音频模块105的部分功能模块设置于处理器101中。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

关于终端100在上述各种可能的设计中执行的操作的详细描述可以参照下文本方案提供的方法的实施例中的描述，在此就不再一一赘述。

图3为本申请实施例提供的一种终端的软件结构示意图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层、应用程序框架层、安卓运行时(Android runtime)和系统库，以及内核层。

其中，应用程序层可以包括一系列应用程序包。如图3所示，应用程序层内可以安装相机、图库、日历、通话、地图、导航、蓝牙、音乐、视频、短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示，应用程序框架层可以包括显示策略服务和显示管理服务。当然，应用程序框架层中还可以包括活动管理器、窗口管理器、内容提供器、视图系统、电话管理器、资源管理器、通知管理器等，本申请实施例对此不作任何限制。

窗口管理器可以用来管理窗口程序。窗口管理器可以获取显示屏大小、判断是否有状态栏、锁定屏幕、截取屏幕等。在本申请的一些实施例中，窗口管理器可具体为窗口管理服务(window manager service，WMS)，该WMS存放有当前屏幕中显示的各个应用窗口的信息，例如，当前屏幕中显示的应用窗口的数量等信息。

内容提供器可以用来获取数据，并使这些数据可以被应用程序访问。这些数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、电话簿等。

视图系统可以包括可视控件，例如，显示/输入文字的控件、显示图片的控件、显示视频的控件等。视图系统可以用来构建应用程序。显示界面可以由一个或多个视图组成。例如，包括音乐播放的显示界面，可以包括显示音乐中歌词的视图以及显示如图1中所示的音乐卡片12的视图。

电话管理器用于提供终端200的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串、图标、图片、布局文件、视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)、媒体库(media libraries)、三维图形处理库(例如：OpenGL ES)、2D图形引擎(例如：SGL)等。

表面管理器可以用来对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库可以支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4、H.264、MP3、AAC、AMR、JPG、PNG等。

三维图形处理库用于实现三维图形绘图、图像渲染、合成、图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动等等。

接下来，基于图1所示的终端的硬件结构和图3所示的终端的软件结构，本申请实施例中，终端100以手机为例，对本方案的音频处理方案进行详细说明。显然，终端100不仅限于手机，还可以为平板、笔记本电脑等其它设备，本申请不作限定。

1、确定音频数据。

当用户操作终端100进入“铃声主题”模式，也即编辑终端100的来电铃声、闹钟铃声、信息铃声、通知铃声等声音的功能。在进入“铃声主题”模式后，如图4所示，终端100可以自动地推送出自带的系统铃声，如Bongo、Arrow、Bell等铃声，也可以显示选择其它音乐的虚拟按钮。可选地，当用户点击图4中的“选择本地音乐”的虚拟按钮后，终端100可以调取已存储的非自带的音乐、录音等音频数据，并将各个音频数据的名称以列表的方式显示在界面上，以便用户选择意向的音频数据。当用户点击图4中的“选择在线音乐”的虚拟按钮后，终端100也可以调动第三方音乐软件，如自带的音乐、网易云音乐、酷狗音乐等应用程序(application，APP)，进入第三方音乐软件后，用户可以按照意向，搜索出喜欢的音乐，并将喜欢的音乐选定，作为用户选定的铃声主题，终端100将选定的音乐下载并存储在存储器中。

2、截取音频数据中的一段音乐。

终端100检测到用户选定的“铃声主题”的音乐后，会对该音乐播放时间进行检测。一般来说，一首音乐播放时间都在一分钟以上，而来电铃声、闹钟铃声、通知铃声等等，都是比较短的，如通知铃声在1秒左右，来电铃声在30秒左右，闹钟铃声也就几十秒左右。如果将选定的音乐作为“铃声主题”的音乐，则需要对选定的音乐进行截取，截取出适合各个不同的应用场景的时间段的音乐，如来电铃声需要30秒时长、闹钟铃声需要40秒、通知铃声1秒等等。用户也可以根据自己个人的爱好，如希望将选定的音乐中高潮部分的片段作为“铃声主题”的音乐，截取处于高潮部分的音乐片段。

终端100截取音乐的方式可以为主动截取，也即终端100根据设定的模式，主动截取一段音乐片段。示例性地，应用场景以来电为例。终端100检测到选定的音乐的播放时长后，根据应用场景，从音乐播放时间点开始，截取30秒的音乐播放时长的音频数据，作为后续编辑的可以应用在各个应用场景下的原始音频数据。可选地，终端100不仅可以从开始播放时间点开始截取，还可以从中间任意一个时间点开始截取，如识别选定音乐的高潮部分，然后对进入高潮时间点开始截取，本申请在此不作限定。

终端100截取音乐的方式可以为被动截取，也即由用户进行操作，选择截取一段音乐片段。示例性地，如图5所示，终端100进入“编辑铃声主题”后，选定的音乐“音乐A”进入音乐播放模式，用户可以根据个人的喜好，通过滑动屏幕上播放音乐的两个进度条(也即图5中的两个有圆点的黑色竖线)，选择出一段音乐片段，作为后续编辑的可以应用在各个应用场景下的原始音频数据。可选地，用户可以通过点击“确定”虚拟按键后，终端100自动保存用户选定的一段音乐片段，作为后续编辑的可以应用在各个应用场景下的原始音频数据。

用户滑动屏幕上两个进度条，很难准确截取的想要的音乐片段。可选地，用户通过滑动进度条截取到音乐片段后，可以通过调节屏幕上的向前“+3s”或向后“-1s”的虚拟按钮，准确截取出自己喜欢的音乐片段，作为后续编辑的可以应用在各个应用场景下的原始音频数据。

本申请上述仅举了两种截取音乐片段的方式，可以想到的是，本申请截取音乐片段的方式并不仅限于上述两种方案，还可以为其它方式，本申请在此不作限定。

另外，在用户主动截取音乐片段时，截取音乐片段的时长并不一定与铃声主题应用的应用场景相关联，可以为大于应用场景设定的时长，也可以小于应用场景设定的时长，本申请在此也不作限定。

终端100得到截取的音乐片段后，可以对音乐片段进行预处理。可选地，终端100在截取到一段音乐片段后，解析出该音乐片段的波形图，如图6所示。其中，波形图中峰值比较大的位置表示音乐处于高声调，波形图中峰值比较小的位置表示音乐处于低声调。

终端100解析出该音乐片段的波形图后，标注出该波形图中每次动态峰值较大起伏对应的时间点，得到多个标注时间点，如图6中黑色三角形。终端100次对该音乐片段进行截取，再次截取的音乐片段为：第一个标注时间点与最后一个标注时间点之间的音乐片段。通过对音乐片段再次截取，得到用户所选择音乐片段最适合的开始位置和结束位置进行裁剪校准，使得再次截取的音乐片段的开头位置和结尾位置都处于高音调，保证该音乐片段作为来电铃声、闹钟铃声等等，可以第一时间提醒用户。

可选地，终端100在截取到一段音乐片段后，解析出该音乐片段的频谱变化图，如图7所示。音乐明显的起伏在频谱上的显示为频段的快速变化，即重音会使频段能量迅速提升，然后衰退，再一次重音又会使能量再次迅速上升如此循环。最明显的易于识别的频段位置是在20Hz-200Hz(方框位置)——鼓/低音声部主要发声位置，依此来辅助确定音乐的正拍即适合用户截取音频开始的位置。

终端100解析出音乐片段的频谱后，将该音乐片段的开始位置和结尾位置不处在20Hz-200Hz的部分音乐片段截掉，得到用户所选择音乐片段最适合的开始位置和结束位置进行裁剪校准，使得再次截取的音乐片段的开头位置和结尾位置都处于频段易于识别的位置。

本申请中，终端100对截取的音乐片段进行预处理的方式，不仅限于上述两种，还可以有其它方式，可以降噪、过滤特定频段的声音等等，本申请在此不作限定。

3、提取音乐片段中的旋律。

终端100在得到一个或多个音乐片段对应的原始音频数据，可以提取该音频数据中的音乐旋律，以便后续将该音频数据进行处理，可以适用于来电铃声、闹钟铃声、通知铃声等不同应用场景。示例性地，以信号处理的方式介绍提取音乐中的旋律。如图6所示，提取旋律的具体过程如下：

(1)计算谱峰(用于构建随时间的音高显著性的表示)

a、等响滤波：用于增强人类听众对感知更敏感的频率，并衰减不敏感的频率。具体地，音响中的等响，就是在低音量时提升高频和低频成分的音量，使得低、中、高部分的响度比例保持和在高音量时的响度比例相同。然后，利用滤波器，将等响度音量中人体不敏感的频率对应的声音过滤掉，保留下人体敏感的频率对应的声音，从而增强人类听众对感知更敏感的频率。

示例性地，对输入的音频信号进行滤波处理，采用公式为：

y(n)＝-a₁·y(n-1)-a₂·y(n-2)-...-a_i·y(n-i)+b₀·x(n)+b₁·x(n-1)+b₂·x(n-2)....+b_i·x(n-i) (1)

其中，n表示，y(n)表示，a_i表示谱峰值，x(n)表示音频信号的时间序列，b_i表示。

b、谱变换将等响滤波后的滤波数据采用短时傅里叶变换(short-time fouriertransform，STFT)，得到频谱信息(包含频率及其对应的幅值和相位)，并通过局部最大值得到峰值。具体地，STFT是与傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。通过对滤波后的音频信号进行STFT，得到输入音频信号的频域能量值|X_l(k)|，并从频域能量值|X_l(k)|中找出所有能量峰值位置pi。

示例性地，对输入的音频信号进行等响滤波处理，采用公式为：

其中，l＝0,1,2…；k＝0,1，…，N+1，w(n)是窗函数，l是帧号，M是窗的长度，N是STFT的长度，H是滑窗的步长。

c、频率/幅度的校正：在由谱变换得到谱相位和谱幅值通过局部最大值获得峰值时，采用相位计算峰的瞬时频率(IF)和振幅。

示例性地，对IF的计算，采用公式为：

其中，

ki表示第i个频率段，STFT将信号分解为fs/N个频率段，fs表示采样频率。

对振幅计算，采用公式为：

其中，W_Hann表示Hann窗核。

(2)计算谱峰的显著性：将公式(1)中计算的谱峰值a_i和相应频率f_i，通过频谱能量计算得到显著性特征。

具体地，根据频域能量峰值位置，计算该音频信号中每个音频帧的显著性的显著值，并得到该音频信号轨迹的显著平均值，具体采用公式为：

其中，β表示能量压缩参数，e(a_i)表示能量阈值函数，g(b，h，f_i)是权重函数，f_i为频率，a_i为能量。

其中，

表示当前帧的最大峰的幅值，γ表示幅值间的最大差值。

其中，δ表示非零的阈值，

b表示从1到N/2，α是谐波加权参数。

(3)创建音高轮廓：通过公式(5)-(7)得到的音高显著性特征，通过峰值检测计算显著性特征峰值和对应频率，并利用静态和动态似然函数创建音高轮廓。其中，静态和动态似然函数创建音高轮廓基本原理可以参考现有的《李强，于凤芹.一种改进的基于音高显著性的旋律提取算法.计算机工程与应用，2019，55(3)：115-119.》的第2.1节的介绍，本申请在此不再赘述了。

其中，创建音高轮廓之前，需要确定音高识别区间。示例性地，如图9所示，以钢琴为例，一般选取频率在73.416-1046.5Hz的音色作为音高识别区间。

(4)确定旋律。通过音高轮廓滤波将非旋律轮廓滤除，选出显著性和最高的轮廓作为旋律音高。具体实现过程如下：

步骤4.1：计算每帧的音高均值P(t)作为当前帧所有轮廓的间距，以及计算它们重叠区域的每帧间距值之间的距离，并计算该区域上的平均值；如果平均距离在一定范围内以内，则等高线被视为倍频程重复对；

步骤4.2：使用步长为1帧的5秒滑动均值滤波器平滑P(t)，避免大幅跳跃；

步骤4.3：检测倍频程重复对，删除离P(t)最远的轮廓；

步骤4.4：按照步骤4.1-4.2，使用剩余等高线重新计算P(t)。

步骤4.5：通过删除一段距离处的等高线来删除间距离群值从P(t)开始超过一个八度；

步骤4.6：按照步骤4.1-4.2，使用剩余等高线重新计算P(t)；

步骤4.7：重复两次步骤4.3-4.6；

步骤4.8：将最后一次迭代后剩余的轮廓作为最终的旋律。

4、设计不同应用场景的旋律。

音乐的旋律可以按照类型进行分类，可以为活力、动感、自然、摇滚、悲伤等。其中，旋律为“活力”，该音乐播放出来给人以青春活力的感觉，旋律为“悲伤”，该音乐播放出来给人以悲伤的感觉，等等。

音乐的旋律一般由音色、节奏、调式、节拍等基本要素有机结合而成。以音色为例，音色是指不同声音表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点，音色可以分为钢琴类音色、半音阶打击乐器音色、风琴类音色、吉他类音色等种类。音乐在播放时，谱上不同类型的音色，会以不同乐器演奏的方式播放。以节奏为例，节奏是把一段无序的节拍流组合成不同的模式，对长短不同经常重复的不同部分的整合，节奏可以分为三连音、切分等等。音乐在播放时，谱上不同种类的节奏，会以不同节拍流播放。

终端100会为不同的应用场景设计不同的旋律。示例性地，以改变旋律类型、旋律的节奏和旋律的音色为例。如图10所示，应用场景为“来电铃声”时，根据旋律类型，设计N种旋律模式，如“活力”模式、“自然”模式、“摇滚”模式、“悲伤”模式等等；再根据旋律的音色，在每种旋律模式中设计M种音色模式，如“钢琴类”模式、“半音阶打击乐器”模式、“风琴类”模式等等；再根据旋律的节奏，在每个音色模式中设计K种节奏模式，如“三连音”模式、“切分”模式等等。因此，对于应用场景为“来电铃声”，可以设计出N×M×K个不同旋律的铃声模式。其中，N、M、K均为大于0的正整数。

用户在选定“来电铃声”的模式过程，先选定应用场景为“来电铃声”的界面，进入如图10所示的界面后，用户可以根据自己喜欢的旋律类型，选择一个类型，如“活力”模式；然后，图10所示的界面再跳转到选择音色的界面，用户可以根据自己喜欢的音色种类，选择一种音色；接着，界面再跳转到选择节奏的界面，用户可以根据自己喜欢的节奏种类，选择一种节奏；最后，点击选择节奏的界面上的“确定”虚拟按钮后，界面再次切换到图10所示的界面，用户可以从右向左滑动屏幕，进入其它应用场景的选定。

可选地，如果用户只关注旋律类型，并不介意旋律的音色和旋律的节奏。用户在图10所示的界面上选定“活力”模式后，直接点击“确定”虚拟按钮，然后可以从右向左滑动屏幕，进入其它应用场景的选定。其中，由于旋律的音色和旋律的节奏没有选定，当截取的音乐片段通过该选定的模式播放时，会以该音乐片段的自身旋律的音色和自身旋律的节奏播放。

5、生成不同应用场景的铃声主题。

以应用场景为“来电铃声”，且选定的模式为：旋律类型“活力”(旋律的音色没有选定、旋律的节奏没有选定)为例。用户点击图10中“确定”虚拟按钮后，终端100将截取的音乐片段中的旋律类型替换“活力”，而该音乐片段中的旋律的音色和旋律的节奏不替换。

可选地，如果截取的音乐片段的时间段小于应用场景设定的铃声时间段，可以将截取的音乐片段循环叠加。如截取的音乐片段的时间段为20s，应用场景设定的铃声时间段为30s，在设计铃声时间段时，前20s为完整的截取的音乐片段，后10s为截取的音乐片段的前10s的音乐片段，从而使得截取的音乐片段可以设置应用场景为“来电铃声”的铃声。如果截取的音乐片段的时间段小于应用场景设定的铃声时间段，可以将截取的音乐片段再次截取，以得到应用场景设定的铃声时间段，也可以将截取的音乐片段进行快进处理，让截取的音乐片段可以在应用场景设定的铃声时间段内完成播放。

当用户选定了应用场景为“信息铃声”的模式后，终端100也会自动的将截取的音乐片段中的旋律类型、旋律的音色和旋律的节奏替换成用户选定的模式。其它“通知铃声”、“闹钟铃声”等应用场景，以此类推。

当终端100为每个应用场景生成对应模式的铃声后，进入如图11所示的界面，将当前每个应用场景生成的铃声作为一个主题。如果截取的音频片段为多段，还可以再生成一个主题的各个应用场景的铃声，如图12所示，用户通过点击

虚拟按键，再次进入图10-图11显示的界面，再次生成一个主题的各个应用场景的铃声。

可选地，当截取的音乐片段为多个时，“来电铃声”、“通知铃声”、“信息铃声”、“闹钟铃声”等应用场景的原始音乐片段，可以为相同的音乐片段，也可以为不同的音乐片段。

如果用户设置有多个主题的各个应用场景的铃声，可以根据个人的意向，通过点击界面上的“应用”虚拟按键，则将该主题的各个应用场景的铃声设置为终端100的当前执行的铃声。

本申请实施例中，在得到用户确定的音乐后，截取该音乐中一个或多个的特定音乐片段，然后提取特定音乐片段中的旋律，如果将特定音乐片段应用在不同应用场景时，则将特定音乐片段中的旋律替换成不同应用场景中设定的旋律，使得特定音乐片段可以作为不同应用场景的铃声，提升终端在不同应用场景下的个性化设计，且会延长用户对选定音乐产生厌恶感的时间。

图13为本申请实施例中提供的一种生成多种音效的方法的流程示意图。如图13所示，该方法实现过程如下：

步骤S1301，确定第一音频数据。

当用户操作终端100进入“铃声主题”模式，也即编辑终端100的来电铃声、闹钟铃声、信息铃声、通知铃声等声音的功能。在进入“铃声主题”模式后，如图4所示，终端100可以自动地推送出自带的系统铃声，如Bongo、Arrow、Bell等铃声，也可以显示选择其它音乐的虚拟按钮。

终端100检测到用户选定的“铃声主题”的音乐后，会对该音乐播放时间进行检测。一般来说，一首音乐播放时间都在一分钟以上，而来电铃声、闹钟铃声、通知铃声等等，都是比较短的，如通知铃声在1秒左右，来电铃声在30秒左右，闹钟铃声也就几十秒左右。如果将选定的音乐作为“铃声主题”的音乐，则需要对选定的音乐进行截取，截取出适合各个不同的应用场景的时间段的音乐，如来电铃声需要30秒时长、闹钟铃声需要40秒、通知铃声1秒等等。用户也可以根据自己个人的爱好，如希望将选定的音乐中高潮部分的片段作为“铃声主题”的音乐，截取处于高潮部分的音乐片段。其中，终端100截取音乐的方式可以为主动截取，也即终端100根据设定的模式，主动截取一段音乐片段，作为第一音频数据。

步骤S1302，提取第一音频数据中的旋律信息。

终端100在得到一个或多个音乐片段对应的原始音频数据，可以提取该音频数据中的音乐旋律，以便后续将该音频数据进行处理，可以适用于来电铃声、闹钟铃声、通知铃声等不同应用场景。示例性地，以信号处理的方式介绍提取音乐中的旋律。提取旋律的具体过程如图6和图6相应描述内容，本申请在此不再赘述了。

步骤S1303，接收第一操作指令，并基于第一操作指令，确定各个应用场景。

步骤S1304，根据预设的音频文件，生成适用于各个应用场景的音频数据。

图14为本申请实施例中提供的一种生成多种音效的装置的结构示意图。如图14所示的装置1400，该装置包括处理单元1401和收发单元1402。其中，装置1400实现过程如下：

处理单元1401用于确定第一音频数据；所述处理单元1401还用于提取所述第一音频数据中的旋律信息；收发单元1402用于接收第一操作指令；所述处理单元1401还用于基于所述第一操作指令，确定至少一个应用场景；以及根据预设的音频文件，生成适用于所述各个应用场景的音频数据，所述音频文件包括不同应用场景对应的旋律信息。

在一种实施方式中，所述收发单元1402还用于接收第二操作指令，并基于所述第二操作指令，选择出原始音频数据；所述处理单元1401还用于按照设定规则，截取出所述原始音频数据中所述至少一个目标音频数据，所述至少一个目标音频数据包括所述第一音频数据。

在一种实施方式中，所述处理单元1401具体用于根据所述第一音频数据，计算出所述第一音频数据中的至少一个谱峰；根据所述至少一个谱峰在频域上的位置，计算所述至少一个谱峰对应的显著性；根据所述至少一个谱峰和所述至少一个谱峰对应的频率，构建音高轮廓；通过音高轮廓滤波，选择出第一显著性的音高轮廓作为所述第一音频数据的旋律信息。

在一种实施方式中，所述处理单元1401具体用于根据所述预设的音频文件，确定所述各个应用场景对应的旋律信息；将所述第一音频数据中的旋律信息替换成所述各个应用场景对应的旋律信息，得到适用于所述各个应用场景的音频数据。

在一种实施方式中，所述旋律信息包括旋律类型、音色和节奏，所述处理单元1401具体用于接收第三操作指令，并基于所述第三操作指令，将所述第一音频数据中的所述旋律类型、音色和节奏替换成所述各个应用场景对应的所述旋律类型、音色和节奏。

在一种实施方式中，所述音频文件还包括不同应用场景对应的时间长度，所述处理单元1401还用于将所述适用于所述各个应用场景的音频数据的播放时间长度调整成所述各个应用场景对应的时间长度。

在一种实施方式中，所述处理单元1401还用于确定第二音频数据；所述处理单元1401还用于提取所述第二音频数据中的旋律信息；所述收发单元1402还用于接收第一操作指令；所述处理单元1402还用于并基于所述第一操作指令，确定第二应用场景；以及根据所述音频文件，生成适用于所述第二应用场景的音频数据。

本发明提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述图1-图12和相应描述内容中记载的任一项方法。

本发明提供一种计算机程序产品，所述计算机程序产品存储有指令，所述指令在由计算机执行时，使得所述计算机实施上述图1-图12和相应描述内容中记载的任一项方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

此外，本申请实施例的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatiledisc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasableprogrammable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

在上述实施例中，图14中的生成多种音效的装置1400可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solidstate disk，SSD))等。

应当理解的是，在本申请实施例的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者接入网设备等)执行本申请实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种生成多种音效的方法，其特征在于，包括：

确定第一音频数据；

提取所述第一音频数据中的旋律信息；

接收第一操作指令，并基于所述第一操作指令，确定至少一个应用场景；

根据预设的音频文件，生成适用于各个应用场景的音频数据，所述音频文件包括不同应用场景对应的旋律信息。

2.根据权利要求1所述的方法，其特征在于，在所述确定第一音频数据之前，包括：

接收第二操作指令，并基于所述第二操作指令，选择出原始音频数据；

按照设定规则，截取出所述原始音频数据中所述至少一个目标音频数据，所述至少一个目标音频数据包括所述第一音频数据。

3.根据权利要求1或2所述的方法，其特征在于，所述提取所述第一音频数据中的旋律信息，包括：

根据所述第一音频数据，计算出所述第一音频数据中的至少一个谱峰；

根据所述至少一个谱峰在频域上的位置，计算所述至少一个谱峰对应的显著性；

根据所述至少一个谱峰和所述至少一个谱峰对应的频率，构建音高轮廓；

通过音高轮廓滤波，选择出第一显著性的音高轮廓作为所述第一音频数据的旋律信息。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述根据预设的音频文件，生成适用于各个应用场景的音频数据，包括：

根据所述预设的音频文件，确定所述各个应用场景对应的旋律信息；

将所述第一音频数据中的旋律信息替换成所述各个应用场景对应的旋律信息，得到适用于所述各个应用场景的音频数据。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述旋律信息包括旋律类型、音色和节奏，

所述根据预设的音频文件，生成适用于各个应用场景的音频数据，包括：

接收第三操作指令，并基于所述第三操作指令，将所述第一音频数据中的所述旋律类型、音色和节奏替换成所述各个应用场景对应的所述旋律类型、音色和节奏。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述音频文件还包括不同应用场景对应的时间长度，

所述方法还包括：

将所述适用于所述各个应用场景的音频数据的播放时间长度调整成所述各个应用场景对应的时间长度。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述方法还包括：

确定第二音频数据；

提取所述第二音频数据中的旋律信息；

根据所述音频文件，生成适用于所述各个应用场景的音频数据。

8.一种生成多种音效的装置，其特征在于，包括：

处理单元，用于确定第一音频数据；

所述处理单元，还用于提取所述第一音频数据中的旋律信息；

收发单元，用于接收第一操作指令；

所述处理单元，还用于基于所述第一操作指令，确定至少一个应用场景；以及

9.根据权利要求8所述的装置，其特征在于，

所述收发单元，还用于接收第二操作指令，并基于所述第二操作指令，选择出原始音频数据；

所述处理单元，还用于按照设定规则，截取出所述原始音频数据中所述至少一个目标音频数据，所述至少一个目标音频数据包括所述第一音频数据。

10.根据权利要求8或9所述的装置，其特征在于，所述处理单元，具体用于

11.根据权利要求8-10任意一项所述的装置，其特征在于，所述处理单元，具体用于

12.根据权利要求8-11任意一项所述的装置，其特征在于，所述旋律信息包括旋律类型、音色和节奏，

所述处理单元，具体用于

13.根据权利要求8-12任意一项所述的装置，其特征在于，所述音频文件还包括不同应用场景对应的时间长度，

所述处理单元，还用于将所述适用于所述各个应用场景的音频数据的播放时间长度调整成所述各个应用场景对应的时间长度。

14.根据权利要求8-13任意一项所述的装置，其特征在于，所述处理单元，还用于确定第二音频数据；

所述处理单元，还用于提取所述第二音频数据中的旋律信息；以及

15.一种终端设备，包括至少一个处理器，所述处理器用于执行存储器中存储的指令，以使得终端设备执行如权利要求1-7任一所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时，使得所述计算机实施权利要求1-7任意一项所述的方法。