CN114333744A

CN114333744A - 音频生成方法、装置、计算机设备和存储介质

Info

Publication number: CN114333744A
Application number: CN202111327975.1A
Authority: CN
Inventors: 董霙; 刘炳楠; 李硙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-04-12

Abstract

本申请涉及一种音频生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法可以应用于智慧交通的应用场景，包括：提取目标图像中各像素点的图像信息；确定与各所述像素点的图像信息对应的音高值；基于所述音高值将各所述像素点的所述图像信息转换为旋律轨音符数据；基于所述旋律轨音符数据或与所述目标图像匹配的音乐调式，确定匹配的和弦轨音符数据；对所述旋律轨音符数据与所述和弦轨音符数据进行合成，得到音频文件。采用本方法能够提高生成音频文件的效率。

Description

音频生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，需要对大量的图像进行配音，以将图像和图像的配音合成为视频。传统技术中，对深度学习模型进行训练并通过训练所得的深度学习模型对目标图像进行处理，得到目标图像对应的音频。但是，在训练深度学习模型时，需要采集大量的训练样本，并且训练深度学习模型的过程需要较长时间，所以，传统技术针对目标图像生成对应音频的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高生成效率的音频生成方法、装置、计算机设备、存储介质和计算机程序产品。

一种音频生成方法，所述方法包括：

提取目标图像中各像素点的图像信息；

确定与各所述像素点的图像信息对应的音高值；

基于所述音高值将各所述像素点的所述图像信息转换为旋律轨音符数据；

基于所述旋律轨音符数据或与所述目标图像匹配的音乐调式，确定匹配的和弦轨音符数据；

对所述旋律轨音符数据与所述和弦轨音符数据进行合成，得到音频文件。

一种音频生成装置，所述装置包括：

提取模块，用于提取目标图像中各像素点的图像信息；

确定模块，用于确定与各所述像素点的图像信息对应的音高值；

转换模块，用于基于所述音高值将各所述像素点的所述图像信息转换为旋律轨音符数据；

所述确定模块，还用于基于所述旋律轨音符数据或与所述目标图像匹配的音乐调式，确定匹配的和弦轨音符数据；

合成模块，用于对所述旋律轨音符数据与所述和弦轨音符数据进行合成，得到音频文件。

在一个实施例中，所述音符为和弦内音符；所述装置还包括：

所述确定模块，还用于基于各所述像素点的图像信息确定所述音乐调式；

第一选取模块，用于根据所述音乐调式从和弦模板库中选取和弦模板；

所述确定模块，还用于确定各所述像素点的图像信息对应的和弦级数；

第一获取模块，用于在所述和弦模板中，获取所述和弦级数对应的和弦内音符；

所述确定模块，还用于基于所述和弦内音符，确定与各所述像素点的图像信息对应的音高值。

在一个实施例中，所述装置还包括：

第二获取模块，用于获取所述音乐调式对应的目标音符集合；

所述确定模块，还用于基于所述目标音符集合中的各音符，确定与各所述像素点的图像信息对应的音高值。

在一个实施例中，所述确定模块，还用于：

在所述音乐调式对应的和弦模板中，确定各所述像素点的图像信息对应的第一和弦构成音，并基于所述第一和弦构成音生成和弦轨音符数据；或者，

基于所述旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据，得到由各所述和弦音符数据构成的和弦轨音符数据；或者，

获取与所述音乐调式固定搭配的第二和弦构成音，并基于所述第二和弦构成音生成和弦轨音符数据。

在一个实施例中，所述确定模块，还用于：

根据所述音乐调式在和弦模板库中选取和弦模板；

确定各所述像素点的图像信息对应的和弦级数；

在所述和弦模板中，获取所述和弦级数对应的和弦构成音；

将所述和弦级数对应的和弦构成音，确定为各所述像素点的图像信息对应的第一和弦构成音。

在一个实施例中，所述确定模块，还用于：

确定所述旋律轨音符数据中每节的旋律音符数据对应的备选和弦；

对各所述备选和弦进行排列组合，得到至少两个备选和弦组合；

在各所述备选和弦组合中，以当前所述备选和弦对应的和弦级数为参考级别，对相邻所述备选和弦进行评分，直至得到各所述备选和弦组合中所有备选和弦对应的分值；

基于所得的分值确定各所述备选和弦组合的组合分值；

在至少两个所述备选和弦组合中，基于所述组合分值选取目标和弦组合；

根据所述目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各所述和弦音符数据构成的和弦轨音符数据。

在一个实施例中，所述确定模块，还用于：

确定每节的所述旋律音符数据中各音符数据分别对应的权重值；

按照所述权重值对各所述音符数据进行加权，得到各所述音符数据的音符分值；

基于所述音符分值，确定各所述和弦级数对应的和弦的音符和值；

根据所述音符和值对各所述和弦级数对应的和弦进行排序；

从各所述和弦中，选取排序的名次达到预设名次的和弦作为所述备选和弦。

在一个实施例中，所述装置还包括：

归一化模块，用于对所述旋律轨音符数据进行归一化处理，得到归一化旋律轨音符数据；

所述确定模块，还用于按照所述权重值对所述归一化旋律音符数据中各音符数据进行加权，得到各所述音符数据的音符分值。

在一个实施例中，所述图像信息为亮度值；所述提取模块，还用于：

获取所述目标图像中各像素点的色度值；

基于所述色度值确定所述目标图像中各像素点的亮度值；

所述确定与各所述像素点的图像信息对应的音高值包括：

确定与各所述像素点的亮度值对应的音高值。

在一个实施例中，所述旋律轨音符数据包括至少两节的旋律音符数据，每节的所述旋律音符数据中包括至少两个音符数据；所述装置还包括：

合并模块，用于在每节的所述旋律音符数据中，对连续出现的相同音符数据进行合并处理，得到合并后旋律音符数据；

所述确定模块，还用于确定每节的所述合并后旋律音符数据中各音符数据的音值；

所述转换模块，还用于基于所述音高值和所述音值，将各所述像素点的所述图像信息转换为旋律轨音符数据。

在一个实施例中，所述装置还包括：

第三获取模块，用于获取媒体素材，并基于所述媒体素材生成目标视频；

第二选取模块，用于从所述目标视频中选取目标视频帧作为所述目标图像；

调整模块，用于根据所述目标视频的作曲时长调整所述目标图像的宽高比，得到调整后的所述目标图像；

所述提取模块，还用于在调整后的所述目标图像中提取各像素点的图像信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

提取目标图像中各像素点的图像信息；

确定与各所述像素点的图像信息对应的音高值；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

提取目标图像中各像素点的图像信息；

确定与各所述像素点的图像信息对应的音高值；

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现以下步骤：

提取目标图像中各像素点的图像信息；

确定与各所述像素点的图像信息对应的音高值；

上述音频生成方法、装置、计算机设备、存储介质和计算机程序产品，基于目标图像中各像素点的图像信息对应的音高值将各像素点的图像信息分别转换为旋律轨音符数据。基于与旋律轨音符数据或与目标图像匹配的音乐调式确定和弦轨音符数据。将旋律轨音符数据与和弦轨音符数据合成为音频文件。通过对目标图像中各像素点的图像信息进行处理得到音频文件，相比于通过由大量的训练样本训练所得的深度学习模型得到音频文件，可以节省采集样本和训练模型的时间，从而提高了生成音频的效率。

附图说明

图1为一个实施例中音频生成方法的应用环境图；

图2为一个实施例中音频生成方法的流程示意图；

图3为一个实施例中确定音高值方法的流程示意图；

图4为一个实施例中生成和弦轨音符数据方法的流程示意图；

图5为另一个实施例中生成和弦轨音符数据方法的流程示意图；

图6为一个实施例中C大调对应的各级和弦示意图；

图7为一个实施例中各级和弦与各节旋律音符数据的对应关系示意图；

图8为一个实施例中获取备选和弦方法的流程示意图；

图9为一个实施例中生成和弦轨音符数据方法的流程示意图；

图10为一个实施例中生成旋律轨音符数据方法的流程示意图；

图11为一个实施例中提取图像信息方法的流程示意图；

图12为一个实施例中确定音高值方法的流程示意图；

图13为一个实施例中生成音频文件的流程示意图；

图14为另一个实施例中生成音频文件的流程示意图；

图15为另一个实施例中生成音频文件的流程示意图；

图16为一个实施例中微服务架构系统的示意图；

图17为一个实施例中音频生成装置的结构框图；

图18为另一个实施例中音频生成装置的结构框图；

图19为一个实施例中计算机设备的内部结构图；

图20为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的音频生成方法，可以应用于如图1所示的应用环境中。在该应用环境中，包括计算机设备102。计算机设备102提取目标图像中各像素点的图像信息；确定与各像素点的图像信息对应的音高值；基于音高值将各像素点的图像信息转换为旋律轨音符数据；基于旋律轨音符数据或与目标图像匹配的音乐调式，确定匹配的和弦轨音符数据；对旋律轨音符数据与和弦轨音符数据进行合成，得到音频文件。

其中，计算机设备102可以是终端，也可以是服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等；此外，还可以是智能语音交互设备、智能家电和车载终端等，但并不局限于此。

服务器可以是独立的物理服务器，也可以是区块链系统中的多个服务节点所组成的服务器集群，各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。

此外，服务器也可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个实施例中，如图2所示，提供了一种音频生成方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，提取目标图像中各像素点的图像信息。

其中，目标图像可以是任意的彩色图像或灰度图像，包括从视频中提取的视频帧、从网页中抓取的图片等。目标图像可以是经过压缩编码的图像，也可以是未经压缩编码的图像。

图像信息是用于表示目标图像特征的信息，包括图像亮度、透明度(即alpha通道信息)、色度以及数字指纹等。对于经过压缩编码的目标图像，计算机设备首先对目标图像进行解压缩，然后从解压缩后各像素点对应的数据中提取各像素点的图像信息；对于未经压缩编码的目标图像，计算机设备直接从目标图像中各像素点对应的数据中提取各像素点的图像信息。

S204，确定与各像素点的图像信息对应的音高值。

其中，音高值用于表示声音的高度，可以用英文字母、数字、特殊符号等来表示，例如，用字母C、D、E、F、G、A、B分别表示唱名为do、re、mi、fa、sol、la、si的不同音高的声音，从do到si的音高逐个增高；或者也可以用1、2、3、4、5、6、7的数字表示do、re、mi、fa、sol、la、si的声音，从1到7的音高逐个增高。

计算机设备可以设置图像信息与音高值之间的对应关系，根据该对应关系确定与各像素点的图像信息对应的音高值。图像信息和音高值之间的对应关系可以是线性或非线性关系，例如，音高值与图像信息成正比或者成反比，或者音高值y＝tan(图像信息)等。例如，图像信息为图像透明度，设置图像透明度的取值范围为0-100，0表示图像完全不透明，100表示图像完全透明，设置音高值的取值为C、E，则当图像透明度的取值为0-50时，确定对应的音高值为C，当图像透明度的取值为51-100时，确定对应的音高值为E。

S206，基于音高值将各像素点的图像信息转换为旋律轨音符数据。

其中，旋律轨音符数据是用于记录基于各像素点的图像信息所生成的旋律的数据，可以是MIDI(Musical Instrument Digital Interface，音乐设备数字接口)文件格式的数据，也可以是其他格式的数据。MIDI文件是由文件头和数据描述构成的二进制数据文件。MIDI格式的文件中，音高值用数字来表示，例如，用数字60表示音高值C4。例如，目标图像中的八个像素点的亮度值分别为30、74、110、120、50、180、200、240，基于各像素点的亮度值确定的音高值分别为C4、E4、F4、F4、D4、A4、B4、B4，假如在MIDI文件中分别用60、62、64、65、69、71表示音高值C4、D4、E4、F4、A4、B4，则所得到的旋律轨音符数据为60、64、65、65、62、69、71、71。

在一个实施例中，旋律轨音符数据中包括至少两节旋律音符数据，每节的旋律音符数据至少包括两个音符数据。其中，旋律音符数据是一节旋律对应的音符数据。旋律轨音符数据中还可以包括各音符数据对应的音值。音值为音符时值，又被称为音符值或音值，用于表示各音符之间的相对持续时间。一个完全音符的音值等于两个二分音符的音值，或者四个四分音符的音值，或者八个八分音符的音值，或者十六个十六分音符的音值，也即，假如一个完全音符的持续时间为1s，则二分音符的持续时间为1/2秒，四分音符的持续时间为1/4秒，八分音符的持续时间为1/8秒，十六分音符的持续时间为1/16秒。

在一个实施例中，旋律轨音符数据中还可以包括各音符数据对应的力度值。计算机设备可以根据目标图像中各像素点的图像信息确定各音符数据对应的力度值。

其中，力度值用于表示声音的强弱程度，包括很弱、弱、中弱、中强、强、很强、突强等，可以分别用字符pp、p、mp、mf、f、ff、sf来表示。计算机设备可以设置图像信息和力度值之间的对应关系，基于该对应关系，根据各像素点的图像信息确定各音符数据对应的力度值。

计算机设备根据目标图像中各像素点的图像信息确定各音符数据对应的力度值，使旋律轨音符数据中包括各音符数据对应的力度值，从而可以提高基于旋律轨音符数据所合成的音频的音效，提高了生成音频文件的效率。

S208，基于旋律轨音符数据或与目标图像匹配的音乐调式，确定匹配的和弦轨音符数据。

其中，音乐调式用于表示音符的组织结构形式。在大小调式体系中，音乐调式可以包括大调和小调，大调包括自然大调、和声大调和旋律大调等，例如C大调、D大调或者F大调等；小调包括自然小调、和声小调和旋律小调等，例如，a小调。

其中，和弦是具有一定音程关系的一组声音，具体地，和弦是将三个或三个以上的音符，按照三度或非三度的音程关系叠加所得。例如，和弦可以是C、E、G三个音符构成的，或者也可以是由D、F、A三个音符构成的。以调式音阶第一级音为根音构成的和弦为一级和弦，以调式音阶第二级音为根音构成的和弦为二级和弦，依次类推。和弦轨音符数据是记录由音符构成的和弦的数据，可以是MIDI文件格式的数据。

计算机设备可以基于旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据。例如，对于包括四节旋律音符数据的C大调旋律轨音符数据，计算机设备确定第一节旋律音符数据匹配的和弦为C和弦，第二节旋律音符数据匹配的和弦为Am和弦，第三节旋律音符数据匹配的和弦为F和弦，第四节旋律音符数据匹配的和弦为G和弦。然后基于C和弦、Am和弦、F和弦与G和弦生成和弦轨音符数据。

在一个实施例中，旋律轨音符数据中包括至少两节旋律音符数据；和弦轨音符数据中包括各节的旋律音符数据分别对应的和弦音符数据。计算机设备基于旋律轨音符数据确定匹配的和弦轨音符数据的方式包括固定搭配和弦方式和预测和弦方式。对于固定搭配和弦方式，计算机设备针对每节的旋律音符数据固定搭配预先设置的和弦音符数据，基于各节的和弦音符数据得到和弦轨音符数据；对于预测和弦方式，计算机设备针对每节的旋律音符数据进行预测，得到与旋律音符数据匹配的和弦音符数据。

在一个实施例中，计算机设备基于与目标图像匹配的音乐调式，确定匹配的和弦轨音符数据。例如，与目标图像匹配的音乐调式为升F大调，计算机设备基于升F大调确定与四节旋律音符数据匹配的和弦分别为B5和弦、Db5和弦、Eb5和弦、Eb5和弦，然后基于B5和弦、Db5和弦、Eb5和弦、Eb5和弦生成对应的和弦轨音符数据。

S210，对旋律轨音符数据与和弦轨音符数据进行合成，得到音频文件。

其中，音频文件可以是各种音频格式的文件，包括MP3(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层III)、wav(Waveform Audio FileFormat，波形声音文件)、RealAudio等格式的文件。

在一个实施例中，S210具体包括：计算机设备将旋律轨音符数据与和弦轨音符数据进行合并，得到MIDI格式文件；通过加载的合成器，根据音源对MIDI格式文件进行合成，得到音频文件。其中，合成器可以是将MIDI格式文件与音源进行合成的应用程序，例如，FluidSynth应用程序。其中，音源为声音的来源，可以是产生声音的乐器，例如，音源可以是吉他、钢琴、萨克斯等。例如，计算机设备可以根据吉他的声音效果对MIDI格式文件进行合成，得到具有吉他声音效果的音频文件。

上述实施例中，基于目标图像中各像素点的图像信息对应的音高值将各像素点的图像信息分别转换为旋律轨音符数据。基于与旋律轨音符数据或与目标图像匹配的音乐调式确定和弦轨音符数据。将旋律轨音符数据与和弦轨音符数据合成为音频文件。通过对目标图像中各像素点的图像信息进行处理得到音频文件，相比于通过由大量的训练样本训练所得的深度学习模型得到音频文件，可以节省采集样本和模型训练的时间，从而提高了生成音频的效率。

在一个实施例中，音符为和弦内音符，如图3所示，S204之前还包括S302-S308，S204具体包括S310。

S302，基于各像素点的图像信息确定音乐调式。

计算机设备可以根据目标图像中各像素点的图像信息确定目标图像的风格，然后基于目标图像的风格确定匹配的音乐调式。例如，如果计算机设备根据目标图像中各像素点的色度值确定目标图像的颜色较为鲜艳丰富，则可以基于色度值确定目标图像的风格较为欢快，从而确定匹配的音乐调式为小调。又例如，如果计算机设备根据目标图像中各像素点的图像信息确定目标图像为中国风的图像，则确定匹配的音乐调式为古风调式。

在一个实施例中，计算机设备可以通过深度学习模型对各像素点的图像信息进行处理，得到音乐调式。深度学习模型可以是卷积神经网络模型、残差卷积神经网络模型、循环神经网络模型等。

S304，根据音乐调式从和弦模板库中选取和弦模板。

其中，和弦模板用来表示固定的和弦组合，和弦模板中每个级数的和弦包括对应的和弦构成音与可用的和弦内音符。例如，和弦模板1为一级和弦、六级和弦、四级和弦与五级和弦的组合，其中，一级和弦的构成音为C3、E3、G2、C2，可用的和弦内音符为C3、E3、G3、C4、E4、G4、C5、E5、G5、C6；六级和弦的构成音为E3、C3、A2、A1，可用的和弦内音符为C3、E3、A3、C4、E4、A4、C5、E5、A5、C6；四级和弦的构成音为C3、A2、F2、F1，可用的和弦内音符为C3、F3、A3、C4、F4、A4、C5、F5、A5、C6；五级和弦的构成音为B2、G2、D2、G1，可用的和弦内音符为D3、G3、B3、D4、G4、B4、D5、G5、B5、D6。

和弦模板库中存储了音乐调式和对应的和弦模板，计算机设备可以根据音乐调式在和弦模板库中选取对应的和弦模板。例如，当音乐调式为C大调时，计算机设备在和弦模板库中选取和弦模板1，当音乐调式为a小调时，计算机设备在和弦模板库中选取和弦模板2。

S306，确定各像素点的图像信息对应的和弦级数。

其中，和弦级数用于表示和弦模板中各和弦的级数，例如，和弦模板1中包括四个和弦，四个和弦的级数分别为一级、六级、四级和五级。

在一个实施例中，S306具体包括：确定各像素点所属的图像行或者图像列；根据图像行的排列顺序或者图像列的排列顺序确定各像素点的图像信息对应的和弦级数。例如，和弦模板1中和弦按照一级和弦、六级和弦、四级和弦、五级和弦的顺序进行排列，当像素点为目标图像中的第一行像素时，确定对应的和弦级数为一级；当像素点为目标图像中的第二行像素时，确定对应的和弦级数为六级；当像素点为目标图像中的第三行像素时，确定对应的和弦级数为四级；当像素点为目标图像中的第四行像素时，确定对应的和弦级数为五级。

S308，在和弦模板中，获取和弦级数对应的和弦内音符。

在和弦模板中，每个级数的和弦都对应固定的和弦内音符，在一个实施例中，计算机设备将和弦模板中各和弦级数对应的和弦内音符存储在数据表中，从而可以通过查表的方法获取各和弦级数对应的和弦内音符。

S310，基于和弦内音符，确定与各像素点的图像信息对应的音高值。

计算机设备按照图像信息与各和弦内音符之间的对应关系，确定各像素点的图像信息对应的音高值。例如，假如图像信息为亮度值，亮度值的取值范围为0-255，和弦内音符为C3、E3、G3、C4、E4，亮度值120对应的和弦内音符为G3，确定该像素点对应的音高值为G3。

上述实施例中，基于各像素点的图像信息确定音乐调式，根据音乐调式从和弦模板库中选取和弦模板并确定和弦级数，在和弦模板中，获取和弦级数对应的和弦内音符并基于和弦内音符确定与各像素点的图像信息对应的音高值。从而可以根据音高值将各像素点的图像信息转换为旋律轨音符数据，并基于旋律轨音符数据得到音频文件，提高了生成音频文件的效率。

在一个实施例中，S204之前还包括：基于各像素点的图像信息确定音乐调式；获取音乐调式对应的目标音符集合；S204具体包括：基于目标音符集合中的各音符，确定与各像素点的图像信息对应的音高值。

其中，目标音符集合为包括多个音符的音符集合。音符是用于表示声音的符号，可以是字母、数字、字母和数字的组合或者特殊符号等。例如，音符可以是C、B、2、3、C3、D4或者

等。例如，C大调对应的目标音符集合可以是“C3、D3、E3、G3、A3、C4、D4、E4、G4、A4、C5、D5、E5、G5、A5、C6”。

计算机设备按照图像信息和目标音符集合中各音符间的对应关系，确定各像素点的图像信息对应的音符，从而将目标音符集合中各音符表示的音高值作为像素点的图像信息对应的音高值。例如，目标音符集合为“C3、D3、E3、G3、A3、C4、D4、E4、G4、A4、C5、D5、E5、G5、A5、C6”，图像信息为亮度值78，确定该像素点在目标音符集合中对应的音符为D3，则该像素点的图像信息对应的音高值为D3。

上述实施例中，计算机设备基于各像素点的图像信息确定音乐调式，获取音乐调式对应的目标音符集合，并基于目标音符集合中的各音符确定与各像素点的图像信息对应的音高值。从而可以根据音高值将各像素点的图像信息转换为旋律轨音符数据，并基于旋律轨音符数据得到音频文件，提高了生成音频的效率。

在一个实施例中，如图4所示，S208具体包括S402或者S404或者S406。

S402，在音乐调式对应的和弦模板中，确定各像素点的图像信息对应的第一和弦构成音，并基于第一和弦构成音生成和弦轨音符数据。

其中，第一和弦构成音为和弦模板中各级和弦的构成音。例如，C大调对应的和弦模板中，一级和弦为C和弦，C和弦的构成音为C3、E3、G2、C2，则第一和弦构成音至少包括C3、E3、G2、C2。

在一个实施例中，计算机设备根据MIDI文件格式要求，将第一和弦构成音转换成数字，生成MIDI文件格式的和弦轨音符数据。例如，计算机设备将C和弦的构成音C3、E3、G2、C2转换为数字，得到MIDI文件格式的和弦轨音符数据为48 52 43 36。

在一个实施例中，S402具体包括：根据音乐调式在和弦模板库中选取和弦模板；确定各像素点的图像信息对应的和弦级数；在和弦模板中，获取和弦级数对应的和弦构成音；将和弦级数对应的和弦构成音，确定为各像素点的图像信息对应的第一和弦构成音。

计算机设备可以根据音乐调式在和弦模板库中选取对应的和弦模板，所选取的和弦模板中包括多个不同级数的和弦。例如，计算机设备在和弦模板库中选取C大调对应的和弦模板，该和弦模板中四个和弦的级数分别是一级、六级、四级和五级。计算机设备可以根据各像素点所属的图像行或图像列确定对应的和弦级数。例如，对于C大调对应的和弦模板，如果像素点为目标图像中的第一行像素，则确定该像素点的图像信息对应的和弦级数为一级；如果像素点为目标图像中的第二行像素，则确定该像素点的图像信息对应的和弦级数为六级。

计算机设备根据音乐调式在和弦模板库中选取和弦模板，并在和弦模板中，获取和弦级数对应的和弦构成音，从而可以根据和弦构成音生成和弦轨音符数据，并将和弦轨音符数据与旋律轨音符数据合成为音频文件，使得到的音频文件的音效更加丰富，提高了生成音频文件的效率。

S404，基于旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。

旋律轨音符数据中可以包括至少两节的旋律音符数据，对于每节的旋律音符数据，可以确定匹配的和弦音符数据，使该和弦音符数据作为旋律音符数据的伴奏。计算机设备可以基于每节的旋律音符数据进行预测，得到与该节旋律音符数据匹配的和弦音符数据，从而由各和弦音符数据构成和弦轨音符数据。计算机设备也可以将每节的旋律音符数据输入机器学习模型，通过机器学习模型预测得到与旋律音符数据匹配的和弦音符数据。

S406，获取与音乐调式固定搭配的第二和弦构成音，并基于第二和弦构成音生成和弦轨音符数据。

第二和弦构成音是与音乐调式固定搭配的和弦的构成音。例如，对于升F大调，从第一节至第四节的旋律音符数据固定搭配的和弦分别为B5和弦、Db5和弦、Eb5和弦与Eb5和弦，B5和弦的构成音为B2、F#3、B3，Db5和弦的构成音为C#3、G#3、C#4，Eb5和弦的构成音为D#3、A#3、D#4。

在一个实施例中，计算机设备将音乐调式和对应的第二和弦构成音存储在数据表中，S406具体包括：计算机设备在数据表中查找与音乐调式固定搭配的第二和弦构成音，并基于第二和弦构成音生成和弦轨音符数据。

上述实施例中，计算机设备基于第一和弦构成音生成和弦轨音符数据；或者，基于旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据；或者，基于第二和弦构成音生成和弦轨音符数据。从而无需进行人工干预，即可使合成所得的音频文件，具有更加丰富的音乐效果，提高了生成音频文件的效率。

在一个实施例中，如图5所示，S404具体包括如下步骤：

S502，确定旋律轨音符数据中每节的旋律音符数据对应的备选和弦。

其中，备选和弦可以是音乐调式对应的各级和弦中的全部或部分和弦，每节的旋律音符数据对应的备选和弦可以相同也可以不同。例如，如图6所示，C大调对应的和弦为C和弦、Dm和弦、Em和弦、F和弦、G和弦、Am和弦，每节的旋律音符数据对应的备选和弦可以为C和弦、Dm和弦、Em和弦、F和弦、G和弦、Am和弦中的一个或多个。例如，第一节旋律音符数据对应的备选和弦为C和弦、Dm和弦与G和弦，第二节旋律音符数据对应的备选和弦为F和弦、Am和弦、C和弦与G和弦。

S504，对各备选和弦进行排列组合，得到至少两个备选和弦组合。

其中，备选和弦组合是由从每节的旋律音符数据对应的备选和弦中选取的和弦，组成的和弦组合。计算机设备对每节的旋律音符数据对应的备选和弦进行排列组合，得到至少两个备选和弦组合。

在一个实施例中，S504具体包括：计算机设备对各节的旋律音符数据对应的备选和弦进行排列；依次从排列后的各组备选和弦中选取一个和弦；将所选取的和弦组成备选和弦组合。例如旋律轨音符数据中包括三节旋律音符数据，第一节旋律音符数据对应的备选和弦为1、4级和弦，第二节旋律音符数据对应的备选和弦为2、5级和弦，第三节旋律音符数据对应的备选和弦为3、4级和弦，则所得的备选和弦组合为“123”、“124”、“153”、“154”、“423”、“424”、“453”、“454”。

S506，在各备选和弦组合中，以当前备选和弦对应的和弦级数为参考级别，对相邻备选和弦进行评分，直至得到各备选和弦组合中所有备选和弦对应的分值。

计算机设备以当前备选和弦对应的和弦级数为参考级别，对当前备选和弦相邻的下一节备选和弦进行评分，例如，备选和弦组合为一级和弦、五级和弦与三级和弦组成的和弦组合，如果当前和弦为一级和弦，则以一级和弦为参考级别，对五级和弦进行评分，然后以五级和弦为参考级别对三级和弦进行评分。

在一个实施例中，计算机设备根据评分表对备选和弦进行评分，评分表中包括当前备选和弦对应的和弦级数，以及当前备选和弦的各相邻备选和弦对应的分值。例如，评分表如表1所示。假如备选和弦组合为一级和弦、五级和弦与三级和弦组成的和弦组合，将一级和弦作为当前备选和弦，根据如表1所示的评分表对五级和弦进行评分，则分值为10，将五级和弦作为当前备选和弦对三级和弦进行评分，则分值为8。

表1

S508，基于所得的分值确定各备选和弦组合的组合分值。

计算机设备基于对备选和弦进行评分所得的分值确定各备选和弦组合的组合分值。在一个实施例中，计算机设备将所得的分值的和值确定为各备选和弦组合的组合分值；或者也可以对所得的各分值进行加权求和，将加权和作为各备选和弦组合的组合分值。例如，如果备选和弦组合为一级和弦、五级和弦与三级和弦组成的和弦组合，将一级和弦作为当前备选和弦，对五级和弦进行评分所得的分值为8，将五级和弦作为当前备选和弦对三级和弦进行评分所得的分值为10，则备选和弦组合的组合分值为18。

S510，在至少两个备选和弦组合中，基于组合分值选取目标和弦组合。

其中，目标和弦组合可以是按照组合分值从至少两个备选和弦组合中选取的一个或多个和弦组合。例如，目标和弦组合可以是组合分值达到预设分值的和弦组合，或者也可以是组合分值最大的和弦组合。

在一个实施例中，计算机设备可以按照组合分值对至少两个备选和弦组合进行排序，从排序后的备选和弦组合中选取排序在预设名次内的和弦组合作为目标和弦组合。

S512，根据目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。

计算机设备将目标和弦组合中各和弦与每节的旋律音符数据进行匹配。在一个实施例中，S512具体包括：计算机设备按照目标和弦组合中各级和弦的排列顺序，将目标和弦组合中的和弦与各节的旋律音符数据进行匹配，根据与各节的旋律音符数据匹配的和弦得到每节的旋律音符数据匹配的和弦音符数据。例如，如图7所示，目标和弦组合中包括按照顺序排列的一级和弦、五级和弦、三级和弦和六级和弦，计算机设备将一级和弦与第一节旋律音符数据进行匹配；将五级和弦与第二节旋律音符数据进行匹配；将三级和弦与第三节旋律音符数据进行匹配；将六级和弦与第四节旋律音符数据进行匹配，根据由一级和弦、五级和弦、三级和弦、六级和弦对应的和弦音符数据构成的和弦轨音符数据。

上述实施例中，确定旋律轨音符数据中每节的旋律音符数据对应的备选和弦并对各备选和弦进行排列组合，得到至少两个备选和弦组合。在至少两个备选和弦组合中，基于各备选和弦组合对应的组合分值选取目标和弦组合并根据目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。从而可以根据旋律轨音符数据确定出相匹配的和弦音符数据，得到和弦轨音符数据，从而无需进行人工干预，即可得到和弦轨音符数据，提高了生成音频文件的效率。

在一个实施例中，如图8所示，S502具体包括如下步骤：

S802，确定每节的旋律音符数据中各音符数据分别对应的权重值。

其中，旋律音符数据是一节旋律对应的音符数据。每节旋律中包括多个音符数据。例如，1 1 5 5|6 6 5-|4 4 3 3|2 2 1-|为四节旋律音符数据，“1 1 5 5”为第一节旋律音符数据，“1”、“1”、“5”、“5”为该节旋律音符数据中的音符数据。

在一个实施例中，计算机设备按照旋律音符数据对应的节拍确定各音符数据分别对应的权重值。节拍用于表示旋律音符数据中各音符数据对应的强拍或者弱拍的组合方式，包括1/4拍、2/4拍、3/4拍、4/4拍、3/8拍等。例如，对于4/4拍的旋律轨音符数据，每节的旋律音符数据中包括四个四分音符，各四分音符的音符数据分别对应强拍、弱拍、次强拍和弱拍。强拍的音符数据对应的权重值可以大于弱拍的音符数据对应的权重值。例如，对于11 5 5|6 6 5-|4 4 3 3|22 1-|中的第一小节1 1 5 5，其中，第一个“1”为强拍，可以设置对应的权重值为0.4，第二个“1”为弱拍，可以设置对应的权重值为0.2，第一个“5”为次强拍，可以设置对应的权重值为0.3，第二个“5”为弱拍，可以设置对应的权重值为0.1。

S804，按照权重值对各音符数据进行加权，得到各音符数据的音符分值。

计算机设备对旋律轨音符数据中的各音符数据进行加权，对加权所得的分值进行求和，得到各音符数据的音符分值。例如，对于C C G G|A A G-|F F EE|D D C-|，第一小节中第一个“C”对应的权重值为0.4，第一小节中第二个“C”对应的权重值为0.2，第四小节中的“C”对应的权重值为0.3，则“C”的音符分值为100×0.4+100×0.2+100×0.3＝90；第一小节中的第一个“G”对应的权重值为0.3，第一小节中的第一个“G”对应的权重值为0.1，第二小节中的“G”对应的权重值为0.3，则“G”的音符分值为100×0.3+100×0.1+100×0.3＝70。

S806，基于音符分值，确定各和弦级数对应的和弦的音符和值。

各和弦级数对应的和弦由多个和弦构成音构成，每个和弦构成音可以用对应的音符数据来表示，根据每个音符数据对应的音符分值可以确定和弦的音符和值。例如，C大调对应的一级和弦，也即C和弦由C、E、G三个音符数据表示的和弦构成音构成，根据C、E、G分别对应的音符分值可以确定C和弦的音符和值。例如，C对应的音符分值为10，E对应的音符分值为20，G对应的音符分值为40，则C和弦对应的音符和值为70。

S808，根据音符和值对各和弦级数对应的和弦进行排序；从各和弦中，选取排序的名次达到预设名次的和弦作为备选和弦。

计算机设备可以按照音符和值从高到低或从低到高的顺序对各和弦级数对应的和弦进行排序，从排序后的各和弦中选取排序的名次达到预设名次的和弦作为备选和弦。例如，排序后的和弦为5级和弦、4级和弦、1级和弦、6级和弦、3级和弦、2级和弦，计算机设备可以选取达到预设名次的和弦为备选和弦，例如，选取前3个和弦作为备选和弦，或者选取排序在前10％的和弦作为备选和弦，或者选取音符和值大于预设值的和弦为备选和弦。

在一个实施例中，S604之前还包括：对旋律轨音符数据进行归一化处理，得到归一化旋律轨音符数据。S604具体包括：按照权重值对归一化旋律音符数据中各音符数据进行加权，得到各音符数据的音符分值。

其中，归一化处理是将不同音高的音符数据归一化为相同的音高。例如，对音符数据C1、C2、C3和C4分别进行归一化处理的结果均为C。计算机设备在对旋律轨音符数据中的各音符数据进行归一化处理后，按照各音符数据对应的权重值对归一化处理后的各音符数据进行加权，得到各音符数据的音符分值。例如，对于4/4拍的旋律轨音符数据C3 A2 A2 E2|C4 A3 B2 D4|E3 D2 C2 F4|，对该旋律轨音符数据进行归一化处理所得的归一化旋律轨音符数据为C A A E|C A B D|E D C F|，对于归一化旋律轨音符数据中每节的旋律音符数据，第一拍至第四拍音符数据对应的权重值分别为0.4、0.2、0.3、0.1，则C对应的音符分值为100×0.4+100×0.4+100×0.3＝110，A对应的音符分值为100×0.2+100×0.3+100×0.2＝70。

在一个实施例中，如图9所示，S404具体包括如下步骤：

S902，对旋律轨音符数据中的各节旋律音符数据进行归一化处理。

S904，确定归一化处理后所得的各节旋律音符数据中各音符数据分别对应的权重值。

S906，按照权重值对各音符数据进行加权，得到各音符数据的音符分值。

S908，基于音符分值，确定各和弦级数对应的和弦的音符和值。

S910，根据音符和值对各和弦级数对应的和弦进行排序。

S912，从各和弦中，选取排序的名次达到预设名次的和弦作为备选和弦。

S914，对各备选和弦进行排列组合，得到至少两个备选和弦组合。

S916，在各备选和弦组合中，以当前备选和弦对应的和弦级数为参考级别，对相邻备选和弦进行评分，直至得到各备选和弦组合中所有备选和弦对应的分值。

S918，基于所得的分值确定各备选和弦组合的组合分值。

S920，在至少两个备选和弦组合中，基于组合分值选取目标和弦组合。

S922，根据目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。

上述S902至S922的具体内容可以参考图5-8实施例中的具体实现过程。

上述实施例中，确定每节的旋律音符数据中各音符数据分别对应的权重值，并按照权重值对各音符数据进行加权，得到各音符数据的音符分值。然后基于音符分值，确定各和弦级数对应的和弦的音符和值，根据音符和值从各和弦中选取备选和弦。从而可以得到与每节的旋律音符数据匹配程度较高的备选和弦，并基于备选和弦得到备选和弦组合，然后基于从备选和弦组合中选取和弦组合生成和弦轨音符数据，提高了生成音频文件的效率。

在一个实施例中，如图10所示，旋律轨音符数据包括至少两节的旋律音符数据，每节的旋律音符数据中包括至少两个音符数据；S206之前还包括S1002-S1004，S206具体包括S1006。

S1002，在每节的旋律音符数据中，对连续出现的相同音符数据进行合并处理，得到合并后旋律音符数据。

其中，合并处理是将多个连续出现的相同音符数据合并为一个或多个音符数据。例如，旋律音符数据为A A C B E F F F G D D D D C C G，则合并后旋律音符数据为A CB E F G D C G。

在一个实施例中，当连续出现的相同音符数据的个数大于预设数值或者连续出现的相同音符数据的音值之和大于预设音值时，对部分相同音符数据进行合并，并将其余音符数据转换为空音符，当转换所得的空音符的个数达到预设值时，重新开始对连续出现的相同音符数据进行合并。例如，在连续出现的相同音符数据的数量大于2时，可以对前两个连续出现的相同音符数据进行合并，并将剩余音符数据转换为空音符，得到合并后旋律音符数据。例如，旋律音符数据为A A C B E F F F G D D D D D D C C G，合并后旋律音符数据为A C B E F

(空音符)G D

(空音符)D C G。

S1004，确定每节的合并后旋律音符数据中各音符数据的音值。

其中，音值为音符时值，又被称为音符值或音值，用于表示各音符之间的相对持续时间。计算机设备可以设置每个像素对应的音符数据的音值，例如，设置每个像素对应的音符数据为16分音符，也即每个像素对应的音符数据对应的音值为全音符的16分之1。

在一个实施例中，在每节的旋律音符数据中，对连续出现的相同音符数据进行合并处理时，对连续出现的相同音符数据的音值进行合并处理，得到合并后旋律音符数据中各音符数据的音值。例如，对于两个连续的16分音符，将这两个连续的16分音符合并为一个8分音符，合并后所得的音符数据的音值为全音符的8分之1。例如，对于四个连续的16分音符，将这四个连续的16分音符合并为一个4分音符，合并后所得的音符数据的音值为全音符的4分之1。

S1006，基于音高值和音值，将各像素点的图像信息转换为旋律轨音符数据。

计算机设备确定各像素点的图像信息对应的音高值和音值，然后根据音高值和音值得到旋律轨音符数据。例如，像素点的亮度值为120，根据亮度值确定的音高值为C4，对应的音值为全音符的16分之1，假设全音符的16分之1为100ms，则旋律轨音符数据包括C4对应的音符数据60和音值100ms。

上述实施例中，在每节的旋律音符数据中，对连续出现的相同音符数据进行合并处理，然后确定每节的合并后旋律音符数据中各音符数据的音值，基于音高值和音值，将各像素点的图像信息转换为旋律轨音符数据。从而可以基于旋律轨音符数据生成音频文件，提高了生成音频文件的效率。

在一个实施例中，如图11所示，S202之前还包括步骤S1102-S1106，S202具体包括S1108。

S1102，获取媒体素材，并基于媒体素材生成目标视频。

其中，媒体素材为多媒体格式的素材，包括文字素材、图片素材或者视频素材等。媒体素材可以是从网页中抓取的素材，也可以是从数据库中获取的素材，或者也可以是通过客户端上传的素材等。目标视频可以为DVD、MPEG-4、H.264、AVI等各种格式的视频。

在一个实施例中，S302具体包括：计算机设备可以通过应用程序从网页中抓取网页数据，从网页数据中提取媒体素材，并将所提取的媒体素材合成为目标视频。应用程序例如可以是CROSS应用程序。

S1104，从目标视频中选取目标视频帧作为目标图像。

其中，目标视频帧可以为目标视频中的一帧或多帧，可以为目标视频中的首个视频帧，或者也可以是随机从目标视频中选取的视频帧。对于压缩视频，目标视频帧可以是I帧(帧内编码帧)、B帧(帧间编码帧)或P帧(前向预测帧)。

S1106，根据目标视频的作曲时长调整目标图像的宽高比，得到调整后的目标图像。

其中，作曲时长为目标视频中配音的时长，可以和目标视频的时长相同或者在仅对目标视频中的部分视频进行配音时，可以小于目标视频的时长。

在一个实施例中，S1106具体包括：确定目标视频的作曲时长对应的旋律音符数据的节数；基于旋律音符数据的节数对目标图像进行缩放，以通过缩放操作调整目标图像的宽高比，使调整后的目标图像的行数与旋律音符数据的节数相同或大于旋律音符数据的节数。例如，目标视频的作曲时长为5分钟，5分钟音频中包括20节旋律音符数据，计算机设备通过对目标图像进行缩放将目标图像的行数调整为20行或大于20行。

S1108，在调整后的目标图像中提取各像素点的图像信息。

计算机设备在调整目标图像的宽高比之后，在调整后的目标图像中提取各像素点的图像信息。然后确定与各图像信息对应的音高值，基于音高值将各像素点的图像信息转换为旋律轨音符数据。

上述实施例中，计算机设备基于获取的媒体素材生成目标视频，从目标视频中选取目标视频帧作为目标图像。然后根据目标视频的作曲时长调整目标图像的宽高比，在调整后的目标图像中提取各像素点的图像信息。从而可以根据各像素点的图像信息生成目标视频的配音，提高了生成音频的效率，并且无须人工参与即可生成目标视频对应的音频文件，实现了音频文件的自动化生成。

在一个实施例中，如图12所示，图像信息为亮度值，S202具体包括S1202-S1204，S204具体包括S1206。

S1202，获取目标图像中各像素点的色度值。

其中，亮度用于表示像素点的明亮程度，亮度值越高，像素点越明亮。对于数字图像，可以用0-255的数值表示像素点的亮度。色度用于表示像素点的颜色特征。对于RGB色彩模式，用R(Red，红色)、G(Green，绿色)和B(Blue，蓝色)三个颜色通道表示像素点的颜色特征，色度值为R、G、B三个颜色通道的值；对于HSV色彩模式，用H(Hue，色调)、S(Saturation，饱和度)和V(Value，明度)三个参数表示像素点的颜色特征，色度值为H、S、V三个参数的值。在一个实施例中，目标图像为RGB颜色模式的图像。

S1204，基于色度值确定目标图像中各像素点的亮度值。

由于像素点的亮度值和色度值间具有一定的映射关系，计算机设备可以根据该映射关系，基于某个像素点的色度值确定该像素点的亮度值。例如，计算机设备可以对各像素点的色度值进行加权求和，得到该像素点对应的亮度值。假设用Gray表示像素点的亮度值，用R、G、B分别表示像素点的三个颜色通道的色度值，则Gray＝0.30R+0.59G+0.11B。

S1206，确定与各像素点的亮度值对应的音高值。

计算机设备可以设置亮度值与音高值之间的对应关系，根据该对应关系确定与各像素点的亮度值对应的音高值。例如，假设亮度值为0-255的数值，音高值分别为C、D、E、F、G、A、B七个音高。亮度值和音高值之间的对应关系如表2所示。当亮度值为80时，计算机设备根据表2所示的对应关系确定该亮度值对应的音高值为E；当亮度值为150时，计算机设备根据表2所示的对应关系确定该亮度值对应的音高值为G。

表2

亮度值	0-35	36-70	71-105	106-140	141-175	176-210	211-255
								音高值	C	D	E	F	G	A	B

在一个实施例中，如图13所示，计算机设备获取媒体素材，然后基于媒体素材生成目标视频。计算机设备从目标视频中选取目标视频帧作为目标图像，并对目标图像进行预处理。在对目标图像进行预处理后，从预处理后的目标图像中提取图像信息，并基于图像信息进行旋律作曲与和弦作曲，通过旋律作曲生成旋律轨音符数据，通过和弦作曲生成和弦轨音符数据。将旋律轨音符数据与和弦轨音符数据组合为MIDI文件，然后通过MIDI合成器将MIDI文件合成为音频文件，将音频文件和目标视频进行合成，得到带配音的目标视频。

在一个实施例中，目标图像是大小为16×8的图像，包含16列8行像素点，计算机设备基于每行像素点生成对应的一节旋律音符数据，并确定和该节旋律音符数据对应的和弦音符数据，所以计算机设备基于该目标图像共生成8节旋律音符数据以及8节和弦的和弦音符数据。

如图14所示，计算机设备提取目标图像中各像素点的图像信息，基于各像素点的图像信息确定音乐调式，然后基于音乐调式从和弦模板库中选取和弦模板。例如，和弦模板为一级和弦、六级和弦、四级和弦以及五级和弦组成的和弦组合。

计算机设备根据各像素点所属的图像行的排列顺序以及和弦模板中各级和弦的排列顺序，确定各行像素点对应的和弦，第一行至第八行像素点对应的和弦分别是一级和弦、六级和弦、四级和弦、五级和弦、一级和弦、六级和弦、四级和弦、五级和弦。基于各行像素点对应和弦的和弦内音符，确定与各像素点的图像信息对应的音高值。基于音高值确定各像素点对应的音符数据，并基于每行像素点对应的音符数据生成一节旋律音符数据。在每节的旋律音符数据中，对连续出现的相同音符数据进行合并处理，得到合并后旋律音符数据。确定每节的合并后旋律音符数据中各音符数据的音值，并基于音高值和音值，将各像素点的图像信息转换为旋律轨音符数据。

计算机设备根据各行像素点对应的和弦级数，在和弦模板中，获取该和弦级数的和弦对应的和弦构成音，根据和弦构成音生成和弦轨音符数据。对旋律轨音符数据与和弦轨音符数据进行组合，得到MINI格式的文件，然后通过合成器将MINI文件与音源进行合成，得到音频文件。

在一个实施例中，目标图像是大小为16×16的图像，包含16列16行像素点，计算机设备基于每行像素点生成对应的一节旋律音符数据，并根据该节旋律音符数据预测得到对应的和弦音符数据，或者对该节旋律音符数据固定搭配对应的和弦音符数据。

如图15所示，计算机设备提取目标图像中各像素点的图像信息，基于各像素点的图像信息确定音乐调式。然后选择是预测和弦模式还是固定搭配和弦模式。计算机设备可以随机选择预测和弦模式或者固定搭配和弦模式，或者计算机设备也可以根据当前任务量进行选择，例如，如果当前需要处理的目标图像的数量超过预设数量阈值，则由于固定搭配和弦模式的计算量较小，计算机设备可以选择固定搭配和弦模式。

计算机设备获取音乐调式对应的目标音符集合(例如，C3、D3、E3、G3、A3、C4、D4、E4、G4、A4、C5、D5、E5、G5、A5、C6)，基于目标音符集合中的各音符，确定与各像素点的图像信息对应的音高值，并基于音高值确定各像素点对应的音符数据。对于各行像素点，如果相邻像素点对应的音高值相同，则将相邻像素点对应的音符数据进行合并处理，得到合并后音符数据。确定每节的合并后旋律音符数据中各音符数据的音值，并基于音高值和音值生成旋律轨音符数据。

对于预测和弦模式，计算机设备对旋律轨音符数据中的各节旋律音符数据进行归一化处理。确定归一化处理后所得的各节旋律音符数据中各音符数据分别对应的权重值。按照权重值对各音符数据进行加权，得到各音符数据的音符分值。基于音符分值，确定各和弦级数对应的和弦的音符和值。根据音符和值对各和弦级数对应的和弦进行排序，从各和弦中，选取排序的名次达到预设名次的和弦作为备选和弦并对各备选和弦进行排列组合，得到至少两个备选和弦组合。在各备选和弦组合中，以当前备选和弦对应的和弦级数为参考级别，对相邻备选和弦进行评分，直至得到各备选和弦组合中所有备选和弦对应的分值。基于所得的分值确定各备选和弦组合的组合分值，在至少两个备选和弦组合中，基于组合分值选取目标和弦组合。根据目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。

对于固定搭配和弦模式，计算机设备获取与音乐调式固定搭配的4节和弦，然后对4节和弦进行循环，得到8节和弦，针对每节和弦生成对应的和弦轨音符数据。

计算机设备对旋律轨音符数据与和弦轨音符数据进行组合，得到MINI格式的文件，然后通过合成器将MINI文件与音源进行合成，得到音频文件。

在一个实施例中，计算机设备为Linux服务器，Linux服务器与Redis数据库、MySQL数据库、FluidSynth软件包以及gRPC协议组成微服务架构系统。如图16所示，微服务架构系统中包括接入层、服务层、数据层和架构层。接入层获取用户数据以及媒体数据，并对用户数据以及媒体数据进行验证，然后向服务层提供验证通过的媒体数据。需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

服务层中包括图像服务、音频服务和视频服务，图像服务包括图像预处理和图像分析。图像预处理包括调整图像宽高比、对图像进行颜色校正等；图像分析包括从图像中提取图像信息，根据图像信息生成旋律轨音符数据以及和弦轨音符数据。音频服务包括将旋律轨音符数据和和弦轨音符数据组合为MIDI文件，并通过FluidSynth软件将MIDI文件合成为音频文件。通过视频服务对音频文件与图像进行渲染，得到视频文件。数据层包括图像数据缓存、音频数据缓存、MIDI数据缓存、视频数据缓存以及视频渲染数据缓存。

在一个实施例中，本申请还提供一种智慧交通的应用场景，该应用场景应用上述的音频生成方法。具体地，该音频生成方法在该应用场景的应用如下：在行驶过程中，车载终端获取目标图像，并提取目标图像中各像素点的图像信息，确定与各像素点的图像信息对应的音高值。然后基于音高值将各像素点的图像信息转换为旋律轨音符数据。基于旋律轨音符数据或与目标图像匹配的音乐调式，确定匹配的和弦轨音符数据。对旋律轨音符数据与和弦轨音符数据进行合成，得到音频文件。车载终端将获取的目标图像与音频文件合成为视频并进行播放。

应该理解的是，虽然图2-5、8-12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5、8-12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图17所示，提供了一种音频生成装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：提取模块1702、确定模块1704、转换模块1706与合成模块1708，其中：

提取模块1702，用于提取目标图像中各像素点的图像信息；

确定模块1704，用于确定与各像素点的图像信息对应的音高值；

转换模块1706，用于基于音高值将各像素点的图像信息转换为旋律轨音符数据；

确定模块1704，还用于基于旋律轨音符数据或与目标图像匹配的音乐调式，确定匹配的和弦轨音符数据；

合成模块1708，用于对旋律轨音符数据与和弦轨音符数据进行合成，得到音频文件。

上述音频生成方法、装置、计算机设备、存储介质和计算机程序产品，基于目标图像中各像素点的图像信息对应的音高值将各像素点的图像信息分别转换为旋律轨音符数据。基于与旋律轨音符数据或与目标图像匹配的音乐调式确定和弦轨音符数据。将旋律轨音符数据与和弦轨音符数据合成为音频文件。通过对目标图像中各像素点的图像信息进行处理得到音频文件，相比于通过由大量的训练样本训练所得的深度学习模型得到音频文件，可以节省采集样本和模型训练的时间，从而提高了生成音频的效率。

在一个实施例中，如图18所示，音符为和弦内音符；装置还包括：

确定模块1704，还用于基于各像素点的图像信息确定音乐调式；

第一选取模块1710，用于根据音乐调式从和弦模板库中选取和弦模板；

确定模块1704，还用于确定各像素点的图像信息对应的和弦级数；

第一获取模块1712，用于在和弦模板中，获取和弦级数对应的和弦内音符；

确定模块1704，还用于基于和弦内音符，确定与各像素点的图像信息对应的音高值。

在一个实施例中，装置还包括：

第二获取模块1714，用于获取音乐调式对应的目标音符集合；

确定模块1704，还用于基于目标音符集合中的各音符，确定与各像素点的图像信息对应的音高值。

在一个实施例中，确定模块1704，还用于：

在音乐调式对应的和弦模板中，确定各像素点的图像信息对应的第一和弦构成音，并基于第一和弦构成音生成和弦轨音符数据；或者，

基于旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据；或者，

获取与音乐调式固定搭配的第二和弦构成音，并基于第二和弦构成音生成和弦轨音符数据。

在一个实施例中，确定模块1704，还用于：

根据音乐调式在和弦模板库中选取和弦模板；

确定各像素点的图像信息对应的和弦级数；

在和弦模板中，获取和弦级数对应的和弦构成音；

将和弦级数对应的和弦构成音，确定为各像素点的图像信息对应的第一和弦构成音。

在一个实施例中，确定模块1704，还用于：

确定旋律轨音符数据中每节的旋律音符数据对应的备选和弦；

对各备选和弦进行排列组合，得到至少两个备选和弦组合；

在各备选和弦组合中，以当前备选和弦对应的和弦级数为参考级别，对相邻备选和弦进行评分，直至得到各备选和弦组合中所有备选和弦对应的分值；

基于所得的分值确定各备选和弦组合的组合分值；

在至少两个备选和弦组合中，基于组合分值选取目标和弦组合；

根据目标和弦组合确定每节的旋律音符数据匹配的和弦音符数据，得到由各和弦音符数据构成的和弦轨音符数据。

在一个实施例中，确定模块1704，还用于：

确定每节的旋律音符数据中各音符数据分别对应的权重值；

按照权重值对各音符数据进行加权，得到各音符数据的音符分值；

基于音符分值，确定各和弦级数对应的和弦的音符和值；

根据音符和值对各和弦级数对应的和弦进行排序；

从各和弦中，选取排序的名次达到预设名次的和弦作为备选和弦。

在一个实施例中，装置还包括：

归一化模块1706，用于对旋律轨音符数据进行归一化处理，得到归一化旋律轨音符数据；

确定模块1704，还用于按照权重值对归一化旋律音符数据中各音符数据进行加权，得到各音符数据的音符分值。

在一个实施例中，图像信息为亮度值；提取模块1702，还用于：

获取目标图像中各像素点的色度值；

基于色度值确定目标图像中各像素点的亮度值；

确定与各像素点的图像信息对应的音高值包括：

确定与各像素点的亮度值对应的音高值。

在一个实施例中，旋律轨音符数据包括至少两节的旋律音符数据，每节的旋律音符数据中包括至少两个音符数据；装置还包括：

合并模块1718，用于在每节的旋律音符数据中，对连续出现的相同音符数据进行合并处理，得到合并后旋律音符数据；

确定模块1704，还用于确定每节的合并后旋律音符数据中各音符数据的音值；

转换模块1706，还用于基于音高值和音值，将各像素点的图像信息转换为旋律轨音符数据。

在一个实施例中，装置还包括：

第三获取模块1720，用于获取媒体素材，并基于媒体素材生成目标视频；

第二选取模块1722，用于从目标视频中选取目标视频帧作为目标图像；

调整模块1724，用于根据目标视频的作曲时长调整目标图像的宽高比，得到调整后的目标图像；

提取模块1702，还用于在调整后的目标图像中提取各像素点的图像信息。

关于音频生成装置的具体限定可以参见上文中对于音频生成方法的限定，在此不再赘述。上述音频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频生成数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频生成方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图20所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图19、20中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频生成方法，其特征在于，所述方法包括：

提取目标图像中各像素点的图像信息；

确定与各所述像素点的图像信息对应的音高值；

2.根据权利要求1所述的方法，其特征在于，所述音符为和弦内音符；所述方法还包括：

基于各所述像素点的图像信息确定所述音乐调式；

根据所述音乐调式从和弦模板库中选取和弦模板；

确定各所述像素点的图像信息对应的和弦级数；

在所述和弦模板中，获取所述和弦级数对应的和弦内音符；

所述确定与各所述像素点的图像信息对应的音高值包括：

基于所述和弦内音符，确定与各所述像素点的图像信息对应的音高值。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于各所述像素点的图像信息确定所述音乐调式；

获取所述音乐调式对应的目标音符集合；

所述确定与各所述像素点的图像信息对应的音高值包括：

基于所述目标音符集合中的各音符，确定与各所述像素点的图像信息对应的音高值。

4.根据权利要求1所述的方法，其特征在于，所述基于所述旋律轨音符数据或与所述目标图像匹配的音乐调式，确定匹配的和弦轨音符数据包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述音乐调式对应的和弦模板中，确定各所述像素点的图像信息对应的第一和弦构成音包括：

根据所述音乐调式在和弦模板库中选取和弦模板；

确定各所述像素点的图像信息对应的和弦级数；

在所述和弦模板中，获取所述和弦级数对应的和弦构成音；

6.根据权利要求4所述的方法，其特征在于，所述基于所述旋律轨音符数据中每节的旋律音符数据，确定匹配的和弦音符数据，得到由各所述和弦音符数据构成的和弦轨音符数据包括：

基于所得的分值确定各所述备选和弦组合的组合分值；

7.根据权利要求6所述的方法，其特征在于，所述确定所述旋律轨音符数据中每节的旋律音符数据对应的备选和弦包括：

根据所述音符和值对各所述和弦级数对应的和弦进行排序；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述旋律轨音符数据进行归一化处理，得到归一化旋律轨音符数据；

所述按照所述权重值对各所述音符数据进行加权，得到各所述音符数据的音符分值包括：

按照所述权重值对所述归一化旋律音符数据中各音符数据进行加权，得到各所述音符数据的音符分值。

9.根据权利要求1所述的方法，其特征在于，所述图像信息为亮度值；所述提取目标图像中各像素点的图像信息包括：

获取所述目标图像中各像素点的色度值；

基于所述色度值确定所述目标图像中各像素点的亮度值；

所述确定与各所述像素点的图像信息对应的音高值包括：

确定与各所述像素点的亮度值对应的音高值。

10.根据权利要求1所述的方法，其特征在于，所述旋律轨音符数据包括至少两节的旋律音符数据，每节的所述旋律音符数据中包括至少两个音符数据；所述方法还包括：

在每节的所述旋律音符数据中，对连续出现的相同音符数据进行合并处理，得到合并后旋律音符数据；

确定每节的所述合并后旋律音符数据中各音符数据的音值；

所述基于所述音高值将各所述像素点的所述图像信息转换为旋律轨音符数据包括：

基于所述音高值和所述音值，将各所述像素点的所述图像信息转换为旋律轨音符数据。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

获取媒体素材，并基于所述媒体素材生成目标视频；

从所述目标视频中选取目标视频帧作为所述目标图像；

根据所述目标视频的作曲时长调整所述目标图像的宽高比，得到调整后的所述目标图像；

所述提取目标图像中各像素点的图像信息包括：

在调整后的所述目标图像中提取各像素点的图像信息。

12.一种音频生成装置，其特征在于，所述装置包括：

提取模块，用于提取目标图像中各像素点的图像信息；

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。