CN113160781A

CN113160781A - 音频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113160781A
Application number: CN202110389895.2A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-23
Anticipated expiration: 2041-04-12
Also published as: CN113160781B

Abstract

本申请实施例公开了一种音频生成方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取目标图像的像素点的像素值；根据获取的像素点的像素值生成曲谱，所述曲谱包括音符标识，每个音符标识的音调是基于一个像素点的像素值确定的，或者，每个音符标识的音调是基于多个像素点的像素值确定的；按照所述曲谱，生成与所述曲谱对应的第一音频，实现了音频的自动化生成，提高了音频生成的效率，由于无需人工参与，因此，还减少了人力成本。

Description

音频生成方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音频生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术和电子设备的不断发展，收听音频成为人们常用的一种娱乐方式，逐渐深入到人们的日常生活中。

为了满足人们对音频的需求，相关技术中，需要音乐制作人谱写曲谱，并按照该曲谱进行演奏，在音乐制作人的演奏过程中录制音频。但是该过程会消耗大量的人力和物力，且生成音频的效率较低。

发明内容

本申请实施例提供了一种音频生成方法、装置、计算机设备及存储介质，减少了人力和物力的消耗，提高了生成音频的效率。所述技术方案如下：

一方面，提供了一种音频生成方法，所述方法包括：

获取目标图像的像素点的像素值；

根据获取的像素点的像素值生成曲谱，所述曲谱包括音符标识，每个音符标识的音调是基于一个像素点的像素值确定的，或者，所述每个音符标识的音调是基于多个像素点的像素值确定的；

按照所述曲谱，生成与所述曲谱对应的第一音频。

另一方面，提供了一种音频生成装置，所述装置包括：

像素值获取模块，用于获取目标图像的像素点的像素值；

曲谱生成模块，用于根据获取的像素点的像素值生成曲谱，所述曲谱包括音符标识，每个音符标识的音调是基于一个像素点的像素值确定的，或者，所述每个音符标识的音调是基于多个像素点的像素值确定的；

音频生成模块，用于按照所述曲谱，生成与所述曲谱对应的第一音频。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述方面所述的音频生成方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述方面所述的音频生成方法中所执行的操作。

再一方面，提供了一种计算机程序，所述计算机程序中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述实施例的音频生成方法中所执行的操作。

本申请实施例提供的音频生成方法、装置、计算机设备及存储介质，能够基于图像自动生成曲谱，并且还能按照生成的曲谱自动生成音频，实现了音频的自动化生成，提高了音频生成的效率，由于音频生成过程无需人工参与，因此，还减少了人力成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图。

图2是本申请实施例提供的一种音频生成方法的流程图。

图3是本申请实施例提供的一种音频生成方法的流程图。

图4是本申请实施例提供的一种曲谱的示意图。

图5是本申请实施例提供的一种目标图像的示意图。

图6是本申请实施例提供的一种音频生成装置的结构示意图。

图7是本申请实施例提供的另一种音频生成装置的结构示意图。

图8是本申请实施例提供的一种终端的结构示意图。

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一目标数量称为第二目标数量，将第二目标数量称为第一目标数量。

本申请所使用的术语“每个”、“多个”、“至少一个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个像素点包括3个像素点，而每个是指这3个像素点中的每一个像素点，任一是指这3个像素点中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

本申请实施例提供的音频数据生成方法，应用于计算机设备。在一种可能实现方式中，计算机设备为终端，例如，手机、平板电脑、计算机等。在另一种可能实现方式中，计算机设备包括终端和服务器。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括至少一个终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。例如，目标应用为音频处理应用，该音频处理应用具有音频处理的功能，例如，通过输入文本和图像自动生成歌曲等。当然，该图像处理应用还能够具有其他功能，例如，音频分享功能、点评功能等。

可选地，终端101基于目标应用获取终端用户输入的目标图像和目标文本，并基于目标应用向服务器102上传该目标图像和目标文本，由服务器102根据目标图像生成第一音频，根据目标文本生成第二音频。服务器102将第一音频和第二音频下发给终端101，由终端101同时播放该第一音频和第二音频。

本申请实施例提供的音频生成方法，能够应用于音频处理场景中：

例如，应用于自动生成音频的场景中。

在用户编写音频的过程中，若采用本申请实施例提供的音频生成方法，用户只需输入图像，设备即可根据输入的图像自动生成音频，用户可以直接使用该音频，或者，由该音频为用户带来创作灵感。

图2是本申请实施例提供的一种音频生成方法的流程图。本申请实施例以执行主体为终端为例，进行示例性说明。参见图2，该方法包括：

201、终端获取目标图像的像素点的像素值。

其中，目标图像为任一图像，例如，目标图像为人物图像、动物图像、风景图像、物品图像等，本申请实施例对目标图像不做限定。像素点的像素值为能够表示该像素点的颜色或者亮度的数值。

在步骤201中，终端会获取目标图像的像素点的像素值，其中，终端可以只获取目标图像中一个像素点的像素值，也可以获取多个像素点的像素值，可以获取部分像素点的像素值，也可以获取全部像素点的像素值，本申请实施例对步骤201中获取多少个像素点的像素值不做限定。

202、终端根据获取的像素点的像素值生成曲谱，该曲谱包括音符标识，每个音符标识的音调是基于一个或者多个像素点的像素值确定的。

其中，每个音符标识的音调是基于一个或者多个像素点的像素值确定的是指：每个音符标识是基于一个像素点的像素值确定的，或者，每个音符标识是基于多个像素点的像素值确定的。

步骤202中的终端获取的像素点为该目标图像中的全部像素点或者部分像素点，本申请实施例对终端获取的像素点的数量的不做限定。

其中，音符标识为用于指示音调的标识，曲谱中包括至少一个音符标识，因此该曲谱用于指示音调变化规律。例如，该音符标识为1(do)、2(re)、3(mi)、4(fa)、5(so)、6(la)或者7(xi)。又如，该音符标识为谱线上的节点标识，不同谱线上的节点标识所指示的音调不同。本申请实施例对音符标识的类型不做限定。

当曲谱包括多个音符标识时，由于每个音符标识的音调是基于一个或者多个像素点的像素值确定的，而目标图像中多个像素点的像素值通常是不完全相同的，因此，基于像素点的像素值确定的音调也是不完全相同的，从而根据获取的像素点的像素点能够生成用于指示音调变化的曲谱。

203、终端按照曲谱，生成与曲谱对应的第一音频。

其中，按照曲谱，生成与曲谱对应的第一音频是指：按照该曲谱所指示的音调变化，生成具有该音调变化的第一音频，也即是，按照曲谱中顺序排列的每个音符标识，依次生成具有每个音符标识对应的音调的第一音频。该曲谱可以作为该第一音频的曲谱。

例如，曲谱为512546，生成曲谱对应的第一音频的过程包括：先根据音符标识1，生成具有音调(do)的子音频，再根据音符标识2，生成具有音调(re)的子音频，直至根据音符标识6，生成具有音调(la)的子音频，将生成的子音频构成曲谱对应的音频。

可选地，由于曲谱指示了音频的音调变化，因此，按照曲谱生成的与该曲谱对应的第一音频可以是纯音乐的音频，也即是，该第一音频中具有至少一种乐器的声音。例如，该第一音频具有吉他的声音；或者，该第一音频具有吉他的声音和钢琴的声音。

本申请实施例提供的音频生成方法，能够基于图像自动生成曲谱，并且还能按照生成的曲谱自动生成音频，实现了音频的自动化生成，提高了音频生成的效率，由于音频生成过程无需人工参与，因此，还减少了人力成本。

图3是本申请实施例提供的一种音频生成方法的流程图。参见图3，本申请实施例以执行主体为终端为例进行示例性说明，该方法包括：

301、终端获取目标图像的像素点的像素值。

可选地，目标图像为终端本地的任一图像，或者，为终端拍摄的图像，或者为终端从其他设备中获取的图像，例如，从服务器中获取的图像等，本申请实施例对目标图像不做限定。

在一种可能实现方式中，终端上安装有目标应用，该目标应用具有音频处理功能，通过该目标应用，能够自动生成音频。可选地，目标图像是终端用户上传至目标应用的图像，目标应用根据该目标图像自动生成音频。

例如，终端通过目标应用显示图像获取界面，该图像获取界面中包括图像获取选项，终端响应于对图像获取选项的触发操作，获取输入的目标图像。其中，对图像获取选项的触发操作可以是指：终端用户将目标图像拖动至图像获取选项的操作，其中，该图像获取选项可以显示为一个图像获取区域；也可以是指：对图像获取选项进行点击操作后，显示多个候选图像，对任一候选图像的选中操作，其中，被选中的候选图像为目标图像。本申请实施例对“对图像获取选项的触发操作”不做限定。

目标图像中包括多个像素点，每个像素点均具有像素值，可选地，该像素值为RGB(Red、Green、Blue，红色、绿色、蓝色)值，其中，R值、G值以及B值的取值范围均为[0，255]；可选地，该像素值为灰度值，该灰度值的取值范围为[0，255]。本申请实施例对像素值不做限定。

302、终端根据获取的像素点的像素值生成曲谱，该曲谱包括音符标识，每个音符标识是基于一个或者多个像素点的像素值确定的。

其中，曲谱中包括至少一个音符标识。例如，曲谱中包括按照一定顺序排列的音符标识，如，该曲谱包括音符标识序列“512546”。目标图像中的像素点也是按照一定顺序排列的，可选地，在根据获取的像素点的像素值生成曲谱时，按照目标图像中像素点的排列顺序，依次根据一个或者多个像素点的像素值生成对应的音符标识，从而得到曲谱。

需要说明的是，本申请实施例中生成的曲谱是包括一个音符标识还是包括多个音符标识，是由终端从目标图像中获取的像素点的像素值的数量确定的，因此，无论是生成包含一个音符标识的曲谱还是生成多个音符标识的曲谱，曲谱的生成过程是同理的，因此，本申请实施例仅以曲谱中包括多个音符标识进行说明，对于曲谱中包括一个音符标识的曲谱生成过程在此不再一一赘述。

需要说明的是，每个音符标识的音调是基于一个或者多个像素点的像素值确定的是指：每个音符标识的音调是由一个像素点的像素值确定的，或者，每个音符标识的音调是由多个像素点的像素值确定的。例如，曲谱中包括10个音符标识，终端获取了目标图像中100个像素点的像素值。其中，曲谱中的第一个音符标识的音调是由100个像素点中的第1至10个像素点确定的，曲谱中的第二个音符标识的音调是由100个像素点中的第11至20个像素点确定的…曲谱中的第10个音符标识的音调是由100个像素点中的第91至100个像素点确定的。

也就是说，终端可以根据一个像素点的像素值来确定音符标识的音调，也可以根据多个像素点的像素值来确定音符标识的音调。

在第一种可能实现方式中，终端可以根据一个像素点的像素值来确定音符标识的音调，因此，曲谱中的一个音符标识的音调与一个像素点的像素值匹配，其中，根据获取的像素点的像素值生成曲谱，包括：按照目标图像中像素点的排列顺序，依次在曲谱中与获取的每个像素点的像素值对应的谱线上添加音符标识，得到添加多个音符标识后的曲谱，其中，音符标识所在的谱线用于指示音符标识的音调。

需要说明的是，不同谱线上的音符标识可以是相同的，也可以是不同的，本申请实施例对此不做限定。其中，该音符标识可以是任一形状的标识，例如，在对应的谱线上添加音符标识是指：在对应的谱线上添加一个圆形标识，如图4所示。

其中，像素值对应的谱线可以是像素值所属区间对应的谱线，或者是像素值中个位数所对应的谱线，或者是像素值的十位数所对应的谱线等，例如，曲谱中包括6条谱线，则将[0，255]划分为6个区间，建立区间与谱线的对应关系，若像素值属于某一区间，则该像素值对应的谱线为对应关系中该区间对应的谱线。又如，曲谱中包括6条谱线，像素值的个位数为0至9的任一数值，若像素值的个位数为1，则该像素值对应第一条谱线，若像素值的个位数为2，则该像素值对应第二条谱线，依次类推，若像素值的个位数为6，则该像素值对应第六条谱线，若像素值的个位数为1至6之外的数字，则该像素值对应参考谱线，该参考谱线可以为任一条谱线，例如，若像素值的个位数为1至6之外的数字，则该像素值对应第一条谱线。本申请实施例对像素值与谱线的对应关系不做限定。

在曲谱中，每条谱线都有对应的谱线序号，像素值对应的谱线可以是谱线序号与该像素值匹配的谱线，可选地，按照目标图像中像素点的排列顺序，依次在曲谱中与获取的每个像素点的像素值对应的谱线上添加音符标识，得到添加多个音符标识后的曲谱，包括：按照目标图像中像素点的排列顺序，依次获取每个像素点的像素值；每次根据获取的像素值，确定谱线序号与像素值匹配的谱线，在曲谱中的该谱线上添加音符标识，得到添加多个音符标识后的曲谱。

其中，谱线序号与像素值匹配可以是：基于谱线序号与像素值的对应关系表，从该对应关系表中获取与像素值对应的谱线序号，可以认为该谱线序号是与该像素值匹配的，或者，该谱线序号是基于像素值确定的。其中，该对应关系可以是设备默认设置的，或者是用户设置的，本申请实施例对对应关系不做限定。

或者，谱线序号与像素值匹配可以是：对像素值进行统计处理，得到处理后的像素值，处理后的像素值与该序号相等。可选地，每次根据获取的像素值，确定谱线序号与像素值匹配的谱线，在曲谱中的该谱线上添加音符标识，得到添加多个音符标识后的曲谱，包括：每次对获取的像素值进行统计处理，得到处理后的像素值，在曲谱中谱线序号与该处理后的像素值相等的谱线上添加音符标识，得到添加多个音符标识后的曲谱。

其中，曲谱包括多条谱线，该多条谱线从上至下，第一条谱线的谱线序号为1，第二条谱线的谱线序号为2，第三条谱线的谱线序号为3，依次类推。因此，谱线序号所属的区间为[1，谱线的数量]，因此，只需将处理后的像素值也限制在[1，谱线的数量]的区间内，即可确定谱线序号与处理后的像素值相等的谱线，从而在该谱线上添加音符标识。

其中，本申请实施例可以采用任一种统计处理方式，对像素值进行统计处理，使得得到的处理后的像素值限制在[1，谱线的数量]的区间内，例如，每次对获取的像素值进行统计处理，得到该处理后的像素值，包括：每次根据获取的像素值，获取该像素值与目标数值相除之后得到的余数，将获取的余数加1后作为该处理后的像素值，其中，目标数值与曲谱中谱线的数量相等。

例如，曲谱为6线谱，则将获取的像素值对6求余数，将得到的余数加1，作为该处理后的像素值，如果处理后的像素值为1，则在谱线序号为1的谱线上添加音符标识，如果处理后的像素值为2，则在谱线序号为2的谱线上添加音符标识。

又如，每次对获取的像素值进行统计处理，得到处理后的像素值，包括：每次确定获取的像素值的个位数数值，若该个位数数值为0，则将该个位数数值加1作为处理后的像素值；若该个位数数值大于等于1且小于等于6，则将该个位数数值作为处理后的像素值；若该个位数数值大于6，将该个位数数值减6作为该处理后的像素值。

另外，音符标识可以是谱线上的音符标识，还可以是数字形式的音符标识，下面以音符标识为数字形式的标识为例，对生成曲谱的过程进行示例性说明：

其中，根据获取的像素点的像素值生成曲谱，包括：按照目标图像中像素点的排列顺序，依次确定与每个像素点的像素值对应的数字形式的音符标识，将确定的多个音符标识构成曲谱，其中，音符标识的数字用于指示音符标识的音调。

其中，音符标识为数字形式的标识是指该音符标识为1、2、3、4、5、6、7等，音符标识的数字不同，音符标识的音调也不同，例如，音符标识为1，音符标识对应的音调为do。

可选地，音符标识的音调与音符标识的数字呈正相关关系，也即是，音符标识的数字越大，音符标识的音调越高。

可选地，设备存储有像素值与音符标识的对应关系，确定与每个像素点的像素值对应的数字形式的音符标识，包括：从该对应关系中，获取每个像素值对应的数字形式的音符标识。

另外，由于音符标识为数字形式的标识，而像素值也是数字形式，因此，可以对像素值进行统计处理后，将统计值作为音符标识。可选地，按照获取的像素点的排列顺序，依次确定与获取的每个像素点的像素值对应的数字形式的音符标识，包括：按照目标图像中像素点的排列顺序，依次获取每个像素点的像素值；每次根据获取的像素值，获取像素值与目标数值相除之后得到的余数，目标数值与曲谱中的音符类型数量相等，将获取的余数加1后的数字作为音符标识。

由于目标数值与曲谱中的音符类型数量相等，因此，像素值与目标数值相除之后得到的余数为[0,曲谱中音符类型数量-1]区间内的整数，通过将获取的余数加1，使得加1后的数字为[1,曲谱中音符类型数量]区间内的整数，从而可以直接将加1后的数字作为音符标识。

在第二种可能实现方式中，每个音符标识的音调是基于多个像素点的像素值确定的，也就是说，终端可以根据多个像素点的像素值来确定音符标识的音调，因此，曲谱中的一个音符标识的音调与多个像素点的像素值匹配。可选地，多个像素点可以是一行像素点，也可以是一列像素点等，需要说明的是，根据每行像素点的像素值生成音符标识的过程与根据每列像素点的像素值生成音符标识的过程类似，在此仅以根据每列像素点的像素点生成音符标识的过程进行示例性说明：

由于目标图像中每列像素点的像素值用于生成一个音符标识，因此，生成的音符标识的数量为目标图像中像素点的列数，例如，目标图像是800*400的图像，也即是目标图像的宽为800，高为400，因此，该目标图像有800列像素点，且每列像素点有400个像素点，根据该目标图像，能够生成800个音符标识。

可选地，根据获取的像素点的像素值生成曲谱，包括：按照目标图像中多列像素点的排列顺序，依次在曲谱中与每列像素点的统计像素值对应的谱线上添加音符标识，得到添加多个音符标识后的曲谱，其中，音符标识所在的谱线用于指示音符标识的音调。

需要说明的是，第一种可能实现方式与第二种可能实现方式的区别仅在于：第一种可能实现方式中，一个音符标识的音调是由一个像素点的像素值确定的，而在第二种可能实现方式中，一个音符标识的音调是由一列像素点的统计像素值确定的。其中，根据一个像素点的像素值确定对应音调的音符标识的过程与根据一列像素点的统计像素值确定对应音调的音符标识的过程同理，在此仅简单进行说明，可以参考第二种可能实现方式中的说明。

可选地，按照目标图像中多列像素点的排列顺序，依次在曲谱中与每列像素点的统计像素值对应的谱线上添加音符标识，得到添加多个音符标识后的曲谱，包括：按照目标图像中多列像素点的排列顺序，依次获取每列像素点的统计像素值；每次根据获取的统计像素值，确定谱线序号与该统计像素值匹配的谱线，在曲谱中的该谱线上添加音符标识，得到添加多个音符标识后的曲谱。

其中，每列像素点的统计像素值可以是该列像素点的平均像素值，或者该列像素点的像素值之和等，本申请实施例对每列像素点的统计像素值不做限定。

可选地，每次根据获取的统计像素值，确定谱线序号与该统计像素值匹配的谱线，在曲谱中的该谱线上添加音符标识，得到添加多个音符标识后的曲谱，包括：每次根据获取的统计像素值，获取该统计像素值与目标数值相除之后得到的余数，将获取的余数加1后，确定谱线序号与加1后的余数相等的谱线，在曲谱中的该谱线上添加音符标识，其中，目标数值与曲谱中谱线的数量相等。

可选地，根据获取的像素点的像素值生成曲谱，包括：按照目标图像中多列像素点的排列顺序，依次确定与每列像素点的统计像素值对应的数字形式的音符标识，将确定的多个音符标识构成曲谱，其中，音符标识的数字用于指示音符标识的音调。

可选地，按照目标图像中多列像素点的排列顺序，依次确定与每列像素点的统计像素值对应的数字形式的音符标识，包括：按照目标图像中多列像素点的排列顺序，依次获取每列像素点的统计像素值；每次根据获取的统计像素值，获取统计像素值与目标数值相除之后得到的余数，目标数值与曲谱中的音符类型数量相等，将获取的余数加1后的数字作为音符标识。

另外，需要说明的是，像素值可以为RGB值，终端根据获取的像素值生成曲谱，包括：终端根据获取的R值、G值或者B值中的至少一项，生成曲谱。

例如，终端仅根据像素点的R值生成音调与R值匹配的音符标识；或者，终端根据R值和G值的统计值，生成音调与统计值匹配的音符标识。

可选地，像素值为灰度值，终端可以根据获取的灰度值，生成音调与灰度值匹配的音符标识。

需要说明的是，上述像素值可以是RGB值、或者RGB值中的任一项、或者RGB值中的多项的统计值、或者灰度值，本申请实施例对像素值不做限定，在一种可能实现方式中，终端在获取到像素点的RGB值之后，会将像素点的RGB值转换为灰度值，根据灰度值确定音调与该灰度值匹配的音符标识。可选地，像素值为RGB值，根据多个像素点的像素值生成曲谱，包括：根据多个像素点的RGB值，获取每个像素点的灰度值；根据多个像素点的灰度值，生成曲谱，曲谱中的每个音符标识的音调是基于一个像素点的像素值确定的，或者，每个音符标识的音调是基于多个像素点的像素值确定的。

其中，根据多个像素点的RGB值，获取每个像素点的灰度值，包括：对于每个像素点，对该像素点的R值、G值和B值进行求和平均，将得到的平均值作为该像素点的灰度值；或者，对于每个像素点，对该像素点的R值、G值和B值进行加权求和，将得到的和值作为该像素点的灰度值。

303、终端按照曲谱，生成与曲谱对应的第一音频。

可选地，曲谱中包括多个音符标识，该多个音符标识按照顺序排列，因此，按照曲谱，生成与曲谱对应的第一音频是指：按照多个音符标识的排列顺序，依次生成具有每个音符标识的音调的第一子音频，将生成的多个第一子音频构成第一音频。

可选地，每个音符标识对应的第一子音频是一段具有时长、音调或者音量的音频。因此，按照曲谱，生成与曲谱对应的第一音频，包括：按照所述曲谱中多个音符标识的排列顺序，依次根据每个音符标识生成第一目标时长的第一子音频，将生成的多个第一子音频构成所述第一音频；或者，按照所述曲谱中多个音符标识的排列顺序，依次为每个音符标识生成第一子音频，且每个音符标识对应的第一子音频的音量值与所述每个音符标识所指示的音调呈正相关关系，将生成的多个第一子音频构成所述第一音频；或者，按照曲谱中多个音符标识的排列顺序，依次为每个音符标识生成第一目标时长的第一子音频，且每个音符标识对应的第一子音频的音量值与每个音符标识所指示的音调呈正相关关系。

其中，第一目标时长可以是任一时长，例如300毫秒、500毫秒等，本申请实施例对此不做限定。

每个音符标识对应的第一子音频的音量值与所述每个音符标识所指示的音调呈正相关关系是指，音符标识的音调越高，该音符标识对应的第一子音频的音量值也越高。

例如，曲谱中包括5种类型的音符标识，第一种类型的音符标识至第五种类型的音符标识所指示的音调逐级递增。对于每个音符标识生成播放时长为300毫秒的第一子音频，且若该音符标识为第一种类型的音符标识，则对应的第一子音频的音量值为200；若该音符标识为第二种类型的音符标识，则对应的第一子音频的音量值为400；若该音符标识为第三种类型的音符标识，则对应的第一子音频的音量值为600；若该音符标识为第四种类型的音符标识，则对应的第一音频的音量值为800；若该音符标识为第五种类型的音符标识，则对应的第一音频的音量值为1000。

304、终端获取目标文本，该目标文本中包括多个字符。

其中，目标文本可以为任一文本，例如，该目标文本为终端用户编写的歌词、散文、聊天记录、接收到的短信等，本申请实施例对目标文本不做限定。

需要说明的是，终端可以先获取目标图像，也可以先获取目标文本，本申请实施例对此不做限定，其中，先执行步骤304还是先执行步骤301，可以由终端用户决定，若终端用户先上传目标图像，则先执行步骤301，若终端用户先上传目标文本，则先执行步骤304，本申请实施例对此不做限定。

其中，目标文本中包括的多个字符可以是汉字、英文字母或者阿拉伯数字等中的至少一项，本申请实施例对字符的类型不做限定。

305、终端将该多个字符划分为多个语句，每个语句包括至少一个字符。

需要说明的是，由于歌曲的歌词通常是以行的形式进行显示，因此，本申请实施例不仅会将目标文本中的字符作为歌词，还会将目标文本中的多个字符划分为多个语句，在显示歌词时，每个语句为一行进行显示。

通常情况下，为了方便断句，多个字符之间会通过标点符号进行分割，因此，在一种可能实现方式中，将目标文本划分为多个语句，包括：获取目标文本中的标点符号，根据目标文本中的标点符号，将目标文本划分为多个语句。其中，标点符号为逗号、分号、句号、问号等任一标点符号。

可选地，为了保证划分后的每个语句是一个完整的语句，还可以通过句号、问号、感叹号等能够表示语句已经结束的标点符号，对多个字符进行划分，在一种可能实现方式中，将目标文本划分为多个语句，包括：获取目标文本中的结束标点符号，结束标点符号为表示语句已经结束的标点符号；根据结束标点符号，将目标文本划分为多个语句。

需要说明的是，在通过结束标点符号将目标文本划分为多个语句之后，可能存在某一语句中的字符较多的问题，因此，还可以在通过结束标点符号将多个字符划分为多个语句之后，继续对字符较多的语句进行划分。在一种可能实现方式中，在根据结束标点符号，将多个字符划分为多个语句的情况下，若多个语句中任一语句包含的字符的数量超过参考数量阈值，则继续根据任一语句中的其他标点符号对任一语句进行划分。

306、终端按照曲谱以及该多个语句，生成第二音频。

其中，多个语句为歌词，曲谱用于指示歌词的音调变化，按照曲谱以及该多个语句，生成第二音频是指：按照曲谱所指示的音调变化，生成包含该多个语句的第二音频。

由于曲谱中包括多个音符标识，多个语句中包括多个字符，因此，在按照曲谱以及多个语句生成第二音频时，可以依次根据曲谱中的每个音符标识，生成包括对应字符的第二子音频。在一种可能实现方式中，按照曲谱以及多个语句，生成包含多个语句的第二音频，包括：按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符；每次根据读取的目标音符标识所指示的音调，生成包含读取的目标字符的第二子音频；将生成的多个第二子音频构成第二音频。

其中，目标音符标识的数量可以是1个，也可以是多个，目标字符的数量也可以是1个，也可以是多个，本申请实施例对目标音符标识和目标字符的数量不做限定。

其中，在生成第二音频时，可以从曲谱中的第一个音符标识开始，依次按照多个音符标识，生成具有该多个音符标识的音调的第二音频，也可以从曲谱中的第20个音符标识开始，依次按照第20个音符标识之后的其他音符标识，生成第二音频。需要说明的是，此处的第20个仅是用于举例，实际应用中，可以是第10个、第50个等，本申请实施例对此不做限定。

在一种可能实现方式中，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符，包括：获取目标数量，目标数量为大于1的任一整数；按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，从曲谱中第目标数量个音符标识开始依次读取目标音符标识，从多个语句中的第一个字符开始依次读取目标字符。

需要说明的是，若从曲谱中的第一个音符标识开始读取目标音符标识，则生成的第二音频与第一音频的音调变化完全相同，可以同时播放第一音频和第二音频。而在一些情况下，在歌手唱歌之前，会先播放一段时间的伴奏，因此，若从曲谱中的第目标数量个音符标识开始读取目标音符标识，生成第二音频，则先播放第一音频，在第一音频播放至第目标数量个音符标识对应的第一子音频时，同时播放第一音频和第二音频。

需要说明的是，在按照曲谱以及多个语句，生成第二音频的过程中，若已经读取了曲谱中的每个音符标识，而多个语句中还有剩余的字符未读取，则循环使用该曲谱，直至生成包括每个语句的第二音频，其中，循环使用该曲谱是指，从该曲谱中的第一个音符标识开始，重新读取目标音频标识；若曲谱中还有音符标识未被读取，已经生成了包括每个语句的第二音频，则不再继续读取目标音符标识。

在按照曲谱以及多个语句生成第二音频时，一个字符可以对应一个音符标识，或者，多个字符对应一个音符标识，或者，多个音符标识对应一个字符，本申请实施例对音符和字符的对应关系不做限定。在一种可能实现方式中，按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符，包括：按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取一个目标音符标识，从多个语句中读取一个的目标字符；或者，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取一个目标音符标识，从多个语句中读取第一数量的目标字符；或者，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取第一数量的目标音符标识，从多个语句中读取一个目标字符。其中，第一数量为大于1的任一整数。例如，第一数量为2、3等任一整数。

例如，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取2个目标音符标识，从多个语句中读取一个目标字符，根据目标音符标识的2个音调，生成包含该目标字符的第二子音频，该第二子音频的音调变化与目标音符标识的2个音调的音调变化相同。

另外，本申请还提供了一种根据获取的目标图像所属的图像类型，确定音符标识与字符的对应关系的方法，图像类型不同，音符标识与字符的对应关系不同。在一种可能实现方式中，通过控制字符读取速率和音符读取速率，来控制音符标识与字符的对应关系，其中，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符，包括：确定目标图像所属的图像类型；根据图像类型与音符读取速率的第一对应关系、以及图像类型与字符读取速率的第二对应关系，确定目标图像对应的目标音符读取速率和目标字符读取速率；按照曲谱中音符标识的排列顺序、多个语句中字符的排列顺序、目标音符读取速率和目标字符读取速率，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符。

例如，目标图像属于风景图像，则目标音符读取速率为每隔300毫秒读取1个音符标识，目标字符读取速率为每隔300毫秒读取2个字符，也即是说，第二音频中，每2个字符对应一个音符标识的音调。又如，目标图像属于物体图像，则目标音符读取速率为每隔300毫秒读取1个音符标识，目标字符读取速率为每隔300毫秒读取1个字符，也即是说，第二音频中，每个字符对应一个音符标识的音调。

其中，物体图像为包括任一物体的图像，例如，如图5所示，该物体图像为包括吉他的图像。

因此，终端用户通过输入不同类型的图像，能够生成不同快慢的第二音频。终端用户若想要慢歌，则输入风景图像，终端用户若想要快歌，则输入物体图像，通过输入不同的图像，使得终端用户能够自主选择生成不同快慢的歌曲。

在一些情况下，歌手每唱完一句歌词，都会停顿一会，再继续唱下一句，因此，两句歌词在演唱时并不是连贯的。因此，在一种可能实现方式中，按照曲谱中音符标识的排列顺序以及多个语句中字符的排列顺序，依次从曲谱中读取目标音符标识，从多个语句中读取目标字符之前，方法还包括：在多个语句中，每两个相邻的语句之间插入空白字符。

由于在相邻的语句之间插入了空白字符，因此，在从多个语句中读取字符时，在读取完一个语句中的字符之后，会读取到该空白字符，在按照目标音符标识和空白字符生成第二子音频时，生成的第二子音频也为空白音频，即生成的第二子音频没有声音。通过插入空白字符，使得生成的第二音频与歌手真实的演唱效果更加相似，提高了第二音频的效果。

需要说明的是，在按照曲谱以及多个语句，生成第二音频时，可以按照恒定的音量值生成第二音频，也可以根据音符标识的音调，生成音量值与音频标识的音调相匹配的第二音频，本申请实施例在此不做限定。

307、终端同时播放该第一音频和第二音频。

终端同时播放第一音频和第二音频相当于同时播放伴奏和人声清唱，能够达到较好的播放效果。

需要说明的是，若第二音频的生成过程中从曲谱中的第一个音符标识开始读取目标音符标识，则同时播放第一音频和第二音频。若第二音频的生成过程中从曲谱中的第K个音符标识开始读取目标音符标识，则先播放第一音频，在第一音频播放至第K个音符标识对应的部分时，同时播放第一音频和第二音频。其中，K为大于1的整数。这样，能够使得第一音频与第二音频的音调一致。

308、终端响应于对第一音频和第二音频的保存操作，将第一音频和第二音频进行合成，得到目标音频，保存该目标音频。

终端用户在收听第一音频和第二音频之后，可能对该第一音频和第二音频满意，从而保存该第一音频和第二音频，以便后续继续收听，或者用作其他用途。若用户对该第一音频和第二音频不满意，则可以丢弃该第一音频和第二音频。

其中，保存操作可以是对终端界面中的相关虚拟按键的触发操作，本申请实施例对保存操作不做限定。

在一种可能实现方式中，终端显示有第一音频和第二音频的播放界面，当终端用户关闭该播放界面时，终端显示音频保存选项，对第一音频和第二音频的保存操作是指：对该音频保存选项的确认操作。

或者，终端的播放界面中显示有保存选项，对第一音频和第二音频的保存操作是指：对该音频保存选项的触发操作。

本申请实施例提供的音频生成方法，能够基于图像自动生成曲谱，并且还能按照生成的曲谱自动生成音频，实现了音频的自动化生成，提高了音频生成的效率，且音频生成过程无需人工参与，减少了人力成本。

另外，本申请实施例通过获取像素值与目标数值相除之后得到的余数来确定音符标识，由于目标数值与曲谱中音符标识的音符类型数量相等，因此，不同余数的数量恰好与音符类型数量相同，从而通过余数能够确定出每一种音符类型的音符标识，提高了音符的生成效果。

另外，本申请实施例中通过输入目标图像和目标文本即可制作音频，实现了从本地素材中进行音乐提取，并且，基于不同目标图像和目标文本能够制作出不同的音频，提高了生成的音频的多样性，且不耗费人力涉及，节约了人力资源。

另外，不同类型的目标图像能够指示不同目标音符读取速率与目标字符读取速率，因此，通过控制输入的目标图像的类型，能够控制生成的音频的快慢，从而丰富了音频的生成方式。

图6是本申请提供的一种音频生成装置的结构示意图。参见图6，该装置包括：

像素值获取模块601，用于获取目标图像的像素点的像素值；

曲谱生成模块602，用于根据获取的像素点的像素值生成曲谱，所述曲谱包括音符标识，每个音符标识的音调是基于一个像素点的像素值确定的，或者，所述每个音符标识的音调是基于多个像素点的像素值确定的；

音频生成模块603，用于按照该曲谱，生成与该曲谱对应的第一音频。

如图7所示，在一种可能实现方式中，该曲谱生成模块602，用于按照目标图像中像素点的排列顺序，依次在曲谱中与获取的每个像素点的像素值对应的谱线上添加音符标识，得到添加多个该音符标识后的曲谱，其中，该音符标识所在的谱线用于指示该音符标识的音调。

在一种可能实现方式中，该曲谱生成模块602，包括：

像素值获取单元6021，用于按照目标图像中像素点的排列顺序，依次获取每个像素点的像素值；

标识添加单元6022，用于每次根据获取的像素值，确定谱线序号与该像素值匹配的谱线，在该曲谱中的该谱线上添加该音符标识，得到添加多个该音符标识后的曲谱。

在一种可能实现方式中，该标识添加单元6022，用于每次对获取的像素值进行统计处理，得到该处理后的像素值，在该曲谱中谱线序号与该处理后的像素值相等的谱线上添加该音符标识，得到添加多个该音符标识后的曲谱。

在一种可能实现方式中，该曲谱生成模块602，用于按照目标图像中像素点的排列顺序，依次确定与获取的每个像素点的像素值对应的数字形式的音符标识，将确定的多个音符标识构成该曲谱，其中，该音符标识的数字用于指示该音符标识的音调。

在一种可能实现方式中，该曲谱生成模块602，包括：

像素值获取单元6021，用于按照该目标图像中像素点的排列顺序，依次获取该每个像素点的像素值；

标识添加单元6022，用于每次根据获取的像素值，获取该像素值与目标数值相除之后得到的余数，该目标数值与曲谱中的音符类型数量相等，将获取的余数加1后的数字作为音符标识。

在一种可能实现方式中，该曲谱生成模块602，用于按照目标图像中多列像素点的排列顺序，依次在曲谱中与每列像素点的统计像素值对应的谱线上添加音符标识，得到添加多个该音符标识后的曲谱，其中，该音符标识所在的谱线用于指示该音符标识的音调。

在一种可能实现方式中，该曲谱生成模块602，用于按照目标图像中多列像素点的排列顺序，依次确定与每列像素点的统计像素值对应的数字形式的音符标识，将确定的多个音符标识构成该曲谱，其中，该音符标识的数字用于指示该音符标识的音调。

在一种可能实现方式中，该像素值为RGB值，该曲谱生成模块602，包括：

灰度值获取单元6023，用于根据该像素点的RGB值，获取像素点的灰度值；

曲谱生成单元6024，用于根据该像素点的灰度值，生成该曲谱，该曲谱中的每个音符标识是基于一个像素点的灰度值确定的，或者，每个音符标识是基于多个像素点的灰度值确定的。

在一种可能实现方式中，该音频生成模块603，用于按照该曲谱中多个音符标识的排列顺序，依次根据每个音符标识生成第一目标时长的第一子音频，将生成的多个第一子音频构成该第一音频；或者，

该音频生成模块603，用于按照该曲谱中多个音符标识的排列顺序，依次为每个音符标识生成第一子音频，且每个音符标识对应的第一子音频的音量值与该每个音符标识所指示的音调呈正相关关系，将生成的多个第一子音频构成该第一音频。

在一种可能实现方式中，该装置还包括：

文本获取模块604，用于获取目标文本，该目标文本中包括多个字符；

语句划分模块605，用于将该目标文本划分为多个语句，每个语句包括至少一个字符；

该音频生成模块603，用于按照该曲谱以及该多个语句，生成包含该多个语句的第二音频，该曲谱还用于指示该第二音频的音调变化。

在一种可能实现方式中，该语句划分模块605，包括：

标点获取单元6051，用于获取该目标文本中的结束标点符号，该结束标点符号为表示语句已经结束的标点符号；

语句划分单元6052，用于根据该结束标点符号，将该目标文本划分为多个语句。

在一种可能实现方式中，该语句划分模块605，还用于若该多个语句中任一语句包含的字符的数量超过参考数量阈值，则继续根据该任一语句中的其他标点符号对该任一语句进行划分。

在一种可能实现方式中，该音频生成模块603，包括：

获取单元6031，用于按照该曲谱中音符标识的排列顺序以及该多个语句中字符的排列顺序，依次从该曲谱中读取目标音符标识，从该多个语句中读取目标字符；

生成单元6032，用于每次根据读取的目标音符标识所指示的音调，生成包含读取的目标字符的第二子音频；

构成单元6033，用于将生成的多个第二子音频构成该第二音频。

在一种可能实现方式中，该获取单元6031，用于获取目标数量，该目标数量为大于1的任一整数；

该获取单元6031，还用于按照该曲谱中音符标识的排列顺序以及该多个语句中字符的排列顺序，从该曲谱中第目标数量个音符标识开始依次读取目标音符标识，从该多个语句中的第一个字符开始依次读取目标字符。

在一种可能实现方式中，该获取单元6031，用于按照该曲谱中音符标识的排列顺序以及该多个语句中字符的排列顺序，依次从该曲谱中读取一个目标音符标识，从该多个语句中读取第一数量的目标字符；或者，

该获取单元6031，用于按照该曲谱中音符标识的排列顺序以及该多个语句中字符的排列顺序，依次从该曲谱中读取该第一数量的目标音符标识，从该多个语句中读取一个目标字符；

其中，该第一数量为大于1的任一整数。

在一种可能实现方式中，该获取单元6031，用于确定该目标图像所属的图像类型；

该获取单元6031，还用于根据图像类型与音符读取速率的第一对应关系、以及图像类型与字符读取速率的第二对应关系，确定该目标图像对应的目标音符读取速率和目标字符读取速率；

该获取单元6031，还用于按照该曲谱中音符标识的排列顺序、该多个语句中字符的排列顺序、该目标音符读取速率和该目标字符读取速率，依次从该曲谱中读取该目标音符标识，从该多个语句中读取该目标字符。

在一种可能实现方式中，该装置还包括：

字符插入模块606，用于在该多个语句中，每两个相邻的语句之间插入空白字符。

在一种可能实现方式中，该装置还包括：

保存模块607，用于响应于对该第一音频和该第二音频的保存操作，将该第一音频和该第二音频进行合成，得到目标音频，保存该目标音频。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如上述实施例的音频生成方法中所执行的操作。

可选地，计算机设备被提供为终端。图8是本申请实施例提供的一种终端的结构示意图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器801所执行以实现本申请中方法实施例提供的音频生成方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及20G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的格雷纳斯定位系统以及欧盟的伽利略定位系统。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，计算机设备被提供为服务器。图9是根据一示例性实施例示出的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)901和一个或一个以上的存储器902，其中，存储器902中存储有至少一条程序代码，至少一条程序代码由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的音频生成方法中所执行的操作。

本申请实施例还提供了一种计算机程序，该计算机程序中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的音频生成方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频生成方法，其特征在于，所述方法包括：

获取目标图像的像素点的像素值；

按照所述曲谱，生成与所述曲谱对应的第一音频。

2.根据权利要求1所述的方法，其特征在于，所述根据获取的像素点的像素值生成曲谱，包括：

按照所述目标图像中像素点的排列顺序，依次在曲谱中与获取的每个像素点的像素值对应的谱线上添加音符标识，得到添加多个所述音符标识后的曲谱，其中，所述音符标识所在的谱线用于指示所述音符标识的音调。

3.根据权利要求2所述的方法，其特征在于，所述按照所述目标图像中像素点的排列顺序，依次在曲谱中与获取的每个像素点的像素值对应的谱线上添加音符标识，得到添加多个所述音符标识后的曲谱，包括：

按照所述目标图像中像素点的排列顺序，依次获取所述每个像素点的像素值；

每次根据获取的像素值，确定谱线序号与所述像素值匹配的谱线，在所述曲谱中的所述谱线上添加所述音符标识，得到添加多个所述音符标识后的曲谱。

4.根据权利要求3所述的方法，其特征在于，所述每次根据获取的像素值，确定谱线序号与所述像素值匹配的谱线，在所述曲谱中的所述谱线上添加所述音符标识，得到添加多个所述音符标识后的曲谱，包括：

每次对获取的像素值进行统计处理，得到处理后的像素值，在所述曲谱中谱线序号与所述处理后的像素值相等的谱线上添加所述音符标识，得到添加多个所述音符标识后的曲谱。

5.根据权利要求1所述的方法，其特征在于，所述根据获取的像素点的像素值生成曲谱，包括：

按照所述目标图像中像素点的排列顺序，依次确定与获取的每个像素点的像素值对应的数字形式的音符标识，将确定的多个音符标识构成所述曲谱，其中，所述音符标识的数字用于指示所述音符标识的音调。

6.根据权利要求5所述的方法，其特征在于，所述按照所述目标图像中像素点的排列顺序，依次确定与获取的每个像素点的像素值对应的数字形式的音符标识，包括：

每次根据获取的像素值，获取所述像素值与目标数值相除之后得到的余数，所述目标数值与曲谱中的音符类型数量相等，将获取的余数加1后的数字作为音符标识。

7.根据权利要求1所述的方法，其特征在于，所述根据获取的像素点的像素值生成曲谱，包括：

按照所述目标图像中多列像素点的排列顺序，依次在曲谱中与每列像素点的统计像素值对应的谱线上添加音符标识，得到添加多个所述音符标识后的曲谱，其中，所述音符标识所在的谱线用于指示所述音符标识的音调。

8.根据权利要求1所述的方法，其特征在于，所述根据获取的像素点的像素值生成曲谱，包括：

按照所述目标图像中多列像素点的排列顺序，依次确定与每列像素点的统计像素值对应的数字形式的音符标识，将确定的多个音符标识构成所述曲谱，其中，所述音符标识的数字用于指示所述音符标识的音调。

9.根据权利要求1所述的方法，其特征在于，所述像素值为RGB值，所述根据获取的像素点的像素值生成曲谱，包括：

根据所述像素点的RGB值，获取所述像素点的灰度值；

根据所述像素点的灰度值，生成所述曲谱，所述曲谱中的每个音符标识是基于一个像素点的灰度值确定的，或者，所述每个音符标识是基于多个像素点的灰度值确定的。

10.根据权利要求1所述的方法，其特征在于，所述按照所述曲谱，生成与所述曲谱对应的第一音频，包括：

按照所述曲谱中多个音符标识的排列顺序，依次根据每个音符标识生成第一目标时长的第一子音频，将生成的多个第一子音频构成所述第一音频；或者，

按照所述曲谱中多个音符标识的排列顺序，依次为每个音符标识生成第一子音频，且每个音符标识对应的第一子音频的音量值与所述每个音符标识所指示的音调呈正相关关系，将生成的多个第一子音频构成所述第一音频。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标文本，所述目标文本中包括多个字符；

将所述目标文本划分为多个语句，每个语句包括至少一个字符；

按照所述曲谱以及所述多个语句，生成包含所述多个语句的第二音频，所述曲谱还用于指示所述第二音频的音调变化。

12.根据权利要求11所述的方法，其特征在于，所述将所述目标文本划分为多个语句，包括：

获取所述目标文本中的结束标点符号，所述结束标点符号为表示语句已经结束的标点符号；

根据所述结束标点符号，将所述目标文本划分为多个语句。

13.根据权利要求11所述的方法，其特征在于，所述根据所述结束标点符号，将所述目标文本划分为多个语句之后，所述方法还包括：

若所述多个语句中任一语句包含的字符的数量超过参考数量阈值，则继续根据所述任一语句中的其他标点符号对所述任一语句进行划分。

14.根据权利要求11所述的方法，其特征在于，所述按照所述曲谱以及所述多个语句，生成包含所述多个语句的第二音频，包括：

按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取目标音符标识，从所述多个语句中读取目标字符；

每次根据读取的目标音符标识所指示的音调，生成包含读取的目标字符的第二子音频；

将生成的多个第二子音频构成所述第二音频。

15.根据权利要求14所述的方法，其特征在于，所述按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取目标音符标识，从所述多个语句中读取目标字符，包括：

获取目标数量，所述目标数量为大于1的任一整数；

按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，从所述曲谱中第目标数量个音符标识开始依次读取目标音符标识，从所述多个语句中的第一个字符开始依次读取目标字符。

16.根据权利要求14所述的方法，其特征在于，所述按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取目标音符标识，从所述多个语句中读取目标字符，包括：

按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取一个目标音符标识，从所述多个语句中读取第一数量的目标字符；或者，

按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取所述第一数量的目标音符标识，从所述多个语句中读取一个目标字符；

其中，所述第一数量为大于1的任一整数。

17.根据权利要求14所述的方法，其特征在于，所述按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取目标音符标识，从所述多个语句中读取目标字符，包括：

确定所述目标图像所属的图像类型；

根据图像类型与音符读取速率的第一对应关系、以及图像类型与字符读取速率的第二对应关系，确定所述目标图像对应的目标音符读取速率和目标字符读取速率；

按照所述曲谱中音符标识的排列顺序、所述多个语句中字符的排列顺序、所述目标音符读取速率和所述目标字符读取速率，依次从所述曲谱中读取所述目标音符标识，从所述多个语句中读取所述目标字符。

18.根据权利要求14所述的方法，其特征在于，所述按照所述曲谱中音符标识的排列顺序以及所述多个语句中字符的排列顺序，依次从所述曲谱中读取目标音符标识，从所述多个语句中读取目标字符之前，所述方法还包括：

在所述多个语句中，每两个相邻的语句之间插入空白字符。

19.根据权利要求11所述的方法，其特征在于，所述按照所述曲谱以及所述多个语句，生成包含所述多个语句的第二音频之后，所述方法还包括：

响应于对所述第一音频和所述第二音频的保存操作，将所述第一音频和所述第二音频进行合成，得到目标音频，保存所述目标音频。

20.一种音频生成装置，其特征在于，所述装置包括：

像素值获取模块，用于获取目标图像的像素点的像素值；

21.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至19任一权利要求所述的音频生成方法中所执行的操作。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至19任一权利要求所述的音频生成方法中所执行的操作。