CN118098194A - 一种音频生成方法及装置 - Google Patents
一种音频生成方法及装置 Download PDFInfo
- Publication number
- CN118098194A CN118098194A CN202410059058.7A CN202410059058A CN118098194A CN 118098194 A CN118098194 A CN 118098194A CN 202410059058 A CN202410059058 A CN 202410059058A CN 118098194 A CN118098194 A CN 118098194A
- Authority
- CN
- China
- Prior art keywords
- audio
- touch path
- target touch
- path
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 28
- 238000009499 grossing Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及视频处理技术领域,提供了一种音频生成方法及装置。所述方法包括:获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频,本申请用于根据触控路径生成音频,拓展了生成音频的方法。
Description
技术领域
本申请涉及通信技术领域,特别是涉及一种音频生成方法及装置。
背景技术
随着移动互联网和通信技术的快速发展,人们对于音频交互的需求不断增大,对于音频技术的要求不断提高。
现有技术中,可以通过MIDI(一种记录音乐信息的文件格式)格式,ABC记谱法(该方法是一种基于ASCII码的文本格式。用字母代表音符,符号代表音符的节奏,数字则代表音符的音高)将文本数据转换为音乐数据,实现将音乐文本数据,再基于音乐文本数据生成对应的音频;随着科学技术的发展,出现了基于深度神经网络模型可以将图像数据生成音频的方法。
但是,由于上述基于MIDI格式,ABC记谱法生成音频的方法均比较单一,在很多场景中无法使用,难以适应对音频多样性的需求;同时基于深度神经网络模型获取音频,又需要大量的数据进行模型训练,耗时而且需要投入大量成本。
发明内容
基于此,本申请实施例针对上述技术问题,提供了一种音频生成方法及装置,用于根据触控路径生成音频,拓展了生成音频的方法。
本申请实施例提供了一种音频生成方法,所述方法包括:
获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;
获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;
基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;
根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,所述获取目标触控路径,包括:
监测显示屏幕中的用户触控信息;
基于所述用户触控信息,生成所述目标触控路径。
在一个实施例中,所述基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,包括:
根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;
根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;
根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一个实施例中,所述根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度,包括:
基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;
根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
在一个实施例中,所述根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调,包括:
基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
在一个实施例中,所述根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色,包括:
获取所述目标触控路径对应的移动速度;
基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;
根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
在一个实施例中,所述根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频所述方法还包括:
对所述目标音频进行平滑处理,生成待播放目标音频并播放。
本申请实施例提供了一种音频生成装置,所述装置包括:
获取单元,用于获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;
处理单元,用于获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;
生成单元,用于基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;
合成单元,用于根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,所述获取单元,具体用于监测显示屏幕中的用户触控信息,基于所述用户触控信息,生成所述目标触控路径。
在一个实施例中,所述生成单元,具体用于根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一个实施例中,所述生成单元,具体用于基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
在一个实施例中,所述生成单元,具体用于基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
在一个实施例中,所述生成单元,具体用于获取所述目标触控路径对应的移动速度;基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
在一个实施例中,所述合成单元,还用于对所述目标音频进行平滑处理,生成待播放目标音频并播放。
本申请实施例提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意实施例所提供的音频生成方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意实施例所提供的音频生成方法的步骤。
本申请实施例所提供的音频生成方法以及装置,通过获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。本申请实施例通过获取所述目标触控路径的属性信息,再基于所述属性信息中的所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,最终基于所述音频响度、音频音调以及音频音色合成所述目标音频,相较于现有技术中的基于MIDI格式,ABC记谱法生成音频的方式,丰富了生成音频的方式,同时也相较于深度神经网络模型,本申请提供的音频生成方法无需大量的数据进行模型训练,进而降低了成本投入。
附图说明
图1为一个实施例中音频生成方法的流程示意图之一;
图2为一个实施例中音频生成方法的场景示意图;
图3为一个实施例中音频生成方法的流程示意图之二;
图4为一个实施例中音频生成方法的示意图;
图5为一个实施例中音频生成装置的结构框图;
图6为一个实施例中电子设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
目前,可以通过MIDI(一种记录音乐信息的文件格式)格式,ABC记谱法(该方法是一种基于ASCII码的文本格式。用字母代表音符,符号代表音符的节奏,数字则代表音符的音高)将文本数据转换为音乐数据,实现将音乐文本数据,再基于音乐文本数据生成对应的音频;随着科学技术的发展,出现了基于深度神经网络模型可以将图像数据生成音频的方法。但是,由于上述基于MIDI格式,ABC记谱法生成音频的方法均比较单一,在很多场景中无法使用,难以适应对音频多样性的需求;同时基于深度神经网络模型获取音频,又需要大量的数据进行模型训练,耗时而且需要投入大量成本。
为了解决上述问题,本申请提供了一种音频生成方法,具体将结合如下实施例进行说明。
在上述内容的基础上,本申请实施例提供了一种资源调度方法,参照图1所示,该资源调度方法包括如下步骤S101至S104:
S101、获取目标触控路径。
其中,所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径。
在一些实施例中,当用户在手机屏幕上进行触控时,用户触控过程中会生成对应的路径,即所述触控路径;例如用户在通过一款绘画应用程序在移动终端上进行绘画创作时,随着用户的笔触,便会在移动终端上的屏幕上显示出绘画痕迹;本申请实施例便会根据当前用户的触控路径,也可以理解为是绘画痕迹,在用户绘画的同时实时生成对应的音频,使得绘画创作过程更加有趣。本申请实施例所提供的音频生成方法不仅可以应用在绘画应用程序中,也可以应用在各种游戏应用程序中,即可以应用在任何一种用户通过触控电子设备屏幕产生触控路径的场景中。
在一些实施例中,在用户在移动终端上通过绘画应用程序进行创作时,实时监测用户的触控路径,每获取所述预设单位时长的触控路径之后,随即生成一个所述目标触控路径,然后可以将该所述目标触控路径发送至云端,在云端合成所述目标音频,再传输至显示设备终端上进行播放。
需要说明的是,所述预设单位时长可以设置为0.05秒,即就是在用户触控屏幕时,以0.05秒为预设单位时长,在用户对显示设备的显示屏幕进行触控,产生触控路径时,每0.05秒生成一个所述目标触控路径发送至云端,由云端根据该0.05秒的目标触控路径合成所述目标音频。
可选的,也可以在显示设备端直接通过所述目标触控路径的属性信息合成所述目标音频,虽然会占用显示设备端的计算资源,但是可以避免从云端向显示设备端发送所述目标音频时,产生的时延,进而提高在根据用户的所述目标触控路径生成音频时的实时性。
示例性的,参照图2所示,为用户在移动终端上通过绘画软件进行绘画创作时产生的触控路径的示意图,其中,在用户触控之后,就可以产生如图2中所示的触控路径21和触控路径22。
在一些实施例中,上述步骤S101中获取所述目标触控路径的方法可以参照如下步骤1和步骤2:
步骤1、监测显示屏幕中的用户触控信息。
步骤2、基于所述用户触控信息,生成所述目标触控路径。
在一些实施例中,本申请实施例提供的音频生成方法可以是显示设备自身提供的服务,也可以是多种应用程序内部提供的服务;无论是在与显示设备交互产生触控路径;还是在与显示设备上的应用程序交互产生触控路径时,用户若是想要从听觉上获取对应的交互体验时,用户只需要打开对应的设置,则显示设备就可以开始监测显示屏幕中的用户触控信息,即用户当前是否在进行触控;一旦监测到用户对显示设备的显示屏幕进行了触控,就会基于所述预设单位时长,生成所述目标触控路径。
S102、获取所述目标触控路径的属性信息。
其中,所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度。
具体的,在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音调、音色。
响度(loudness),又称声强或音量,它表示的是声音能量的强弱程度,主要取决于声波振幅的大小。声音的响度一般用声压(达因/平方厘米)或声强(瓦特/平方厘米)来计量,声压的单位为帕(Pa),它与基准声压比值的对数值称为声压级,单位是分贝(dB)。
音调(pitch),也称音高,表示人耳对声音调子高低的主观感受。客观上音高大小主要取决于声波基频的高低,频率高则音调高,反之则低,单位用赫兹(Hz)表示。
音色(Timbre),又称音品,由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音称为基音,各次谐波的微小振动所产生的声音称泛音。单一频率的音称为纯音,具有谐波的音称为复音。每个基音都有固有的频率和不同响度的泛音,借此可以区别其它具有相同响度和音调的声音。
因此,若要生成人耳能听到的音频,需要对应得到音频的响度、音调、音色,在本申请实施例中,将结合触控路径的属性信息,生成对应的音频响度、音调以及音色,进而再通过音频响度、音调以及音色合成目标音频。以实现实时通过触控路径的属性信息转化为音频信息,为用户与移动终端的交互体验增添听觉上的乐趣,使得交互过程更加生动有趣。
S103、基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色。
在本申请实施例中,具体是通过所述目标触控路径的位置信息生成对应的所述音频响度;通过所述目标触控路径的路径长度生成对应的所述音频音调;通过所述目标触控路径的移动速度生成对应的所述音频音色。
S104、根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一些实施例中,在根据所述目标触控路径的属性信息生成对应的音频响度、音频音调、音频音色之后,就可以根据这三个音频属性合成对应的所述目标音频,在生成所述目标音频之后,需要立即发送至移动终端并播放,使得用户能够实时接收到音频,进而提高用户交互时的体验。
本申请实施例所提供的音频生成方法以及装置,通过获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。本申请实施例通过获取所述目标触控路径的属性信息,再基于所述属性信息中的所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,最终基于所述音频响度、音频音调以及音频音色合成所述目标音频,相较于现有技术中的基于MIDI格式,ABC记谱法生成音频的方式,丰富了生成音频的方式,同时也相较于深度神经网络模型,本申请提供的音频生成方法无需大量的数据进行模型训练,进而降低了成本投入。
作为上述实施例的扩展与细化,上述实施例中的步骤S103(基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色),包括:
S301、根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度。
在一些实施例中,所述目标触控路径的位置信息可以理解为所述目标触控路径的位置坐标序列,即构成所述目标触控路径信息的位置坐标,再根据其位置坐标对应获取音频响度,是因为预先对移动设备的显示屏幕进行区域划分,并对不同区域进行响度设置,本申请中对显示屏幕的划分方式和响度设置不做任何限定,本领域人员可以根据实际需要对显示区域进行划分并进行响度设置。
示例性的,参照图4所示,为响度划分区域的示意图,其中,如图4中的41所示的线为屏幕中线所在的位置,以中线41作为响度基线,进行划分得到区域42-区域46,然后对不同区域进行响度设置,例如,在如图4所示的划分方式中,可以将靠近中线的区域的响度设置为最大,越趋近于屏幕边缘的区域的响度逐渐变小;同一区域中的响度则是一致的。
当接收到所述目标触控路径之后,就可以根据其对应的属性信息中的位置信息获取其对应的位置坐标,根据其位置坐标即可获取其对应的音频响度,例如,当所述目标触控路径位于如图4中的区域42和43中,则位于42区域中的响度为60分贝,也称为60方,位于43区域中的响度为40分贝,也称为40方。
具体的,上述步骤S301中根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度,包括如下步骤S3011和S3012:
S3011、基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列。
S3012、根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
S302、根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调。
在一些实施例中,是根据所述目标触控路径的路径长度确定对应的音调信息,在本申请中,会提供给用户多个频率范围供用户选择,以满足不同用户的需求,包括:低音频率范围:20Hz-250Hz,中音频率范围:250Hz-2000Hz,高音频率范围:2000Hz-20000Hz;每个频率范围会预先间隔固定的频率将所述划分为多个不同的等级,例如,可以间隔20Hz将低音频率范围划分为12个的等级,其他频率范围同理,然后,根据实验获取的触控路径的最大值和最小值,将所述触控路径的范围也同样划分为对应的频率范围的等级数量,并保存为所述预设对应关系,当用户在选择了对应的频率范围之后,即可根据当前所述目标触控路径的长度从预设对应关系中确定对应的音频频率,进而得到对应的音频音调。
S303、根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一些实施例中,可以根据所述目标触控路径的移动速度,获取所述目标触控路径对应的音频音色。
需要说明的是,音频的音色一般由泛音确定的,它是音频极具特性的一个属性,例如可以通过音色可以辨别出各种乐器;通过音色辨别出不同的人声,这都是基于音色的特点来实现的。不同的音色具备不同特点的泛音,因此为音频添加不同的泛音会给用户带来不同的听觉体验。
具体的,上述步骤S303中根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色,可以参照如下步骤S3031和S3032:
S3031、获取所述目标触控路径对应的移动速度。
在本申请实施例中,可以根据所述目标触控路径的移动速度,自适应设置不同的泛音,以使得音频播放时展示出对应的音色。
需要说明的是,所述获取所述目标触控路径对应的移动速度的实现方法可以是对所述目标触控路径进行速度检测,具体是利用所述目标触控路径的路径长度与所述预设单位时间进行计算,得到对应的移动速度。
S3032、基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息。
具体的,若所述目标触控路径的移动速度大于等于第一阈值,说明当前所述目标触控路径的移动速度相对较快,对应的音频可以以明亮轻快的音色进行播放,因此可以为当前音频添加高阶泛音,使得音色更加轻快;若所述目标触控路径的移动速度小于等于第二阈值,说明当前所述目标触控路径的移动速度相对较慢,对应的音频可以以舒缓低沉的音色进行播放,因此可以为当前音频添加低阶泛音,使得音色柔和舒缓。
进一步,在本申请中所述基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息具体方法可以是预先设置在每一个移动速度下对应的泛音等级,需要说明的是,泛音等级是相对音频的基音频率(发音体振动产生复合音时,其中频率最低的音,即为构成主要振动的音,称为基音)决定的,在本申请实施例中,生成所述目标音频的基音是通过用户自定义选择想要听到的音频范围(低音频率、中音频率、高音频率)确定的,每一个频率范围中最低频率即为基音,不同的泛音等级对应的音频频率就是基音频率的整数倍;就可以为每一个频率范围设置对应的泛音等级,并与对应的移动速度设置为映射关系,当获取到当前所述目标触控路径对应的移动速度之后,结合当前用户选择的频率范围对应的泛音等级与一定速度的映射关系,即可获取所述移动速度对应的泛音等级,然后基于该泛音等级的频率获取对应的音频音色。
在设置泛音的同时,还可以结合所述音频响度以及所述音频音调,添加适配的泛音,具体的,对于响度和音调都在逐渐变高的音频,可以适当添加高阶泛音,使得音频更加明亮和清脆;对于响度和音调都在逐渐降低的音频,可以适当添加低阶泛音,使得音频相对柔和。
S3033、根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
作为上述实施例的扩展与细化,在所述根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频之后,所述方法还包括:
对所述目标音频进行平滑处理,生成待播放目标音频并播放。
在一些实施例中,为了防止在播放所述目标音频时,出现响度和音调急剧升高或者急剧降低,影响用户的听觉体验;本申请实施例会对所述目标音频进行平滑处理。
具体的,会获取所述目标音频对应的频率波形,确定所述目标音频中的波形波动剧烈的位置,然后根据该位置前后的音频数据进行调整;如果是急剧升高的情况,则查询该位置两侧的峰值数据,并降低到最高峰值;如果是急剧降低的情况,则根据两侧的峰值数据调整到较低的峰值,进而实现将所述目标音频中波动剧烈的位置进行平滑,提高用户的听感体验。
应该理解的是,虽然图1、图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种音频生成装置,包括:获取单元501、处理单元502、生成单元503、合成单元504,其中:
获取单元501,用于获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;
处理单元502,用于获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;
生成单元503,用于基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;
合成单元504,用于根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,所述获取单元401,具体用于监测显示屏幕中的用户触控信息,基于所述用户触控信息,生成所述目标触控路径。
在一个实施例中,所述生成单元403,具体用于根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一个实施例中,所述生成单元403,具体用于基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
在一个实施例中,所述生成单元403,具体用于基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
在一个实施例中,所述生成单元403,具体用于获取所述目标触控路径对应的移动速度;基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
在一个实施例中,所述合成单元404,还用于对所述目标音频进行平滑处理,生成待播放目标音频并播放。
本申请实施例所提供的音频生成方法以及装置,通过获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。本申请实施例通过获取所述目标触控路径的属性信息,再基于所述属性信息中的所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,最终基于所述音频响度、音频音调以及音频音色合成所述目标音频,相较于现有技术中的基于MIDI格式,ABC记谱法生成音频的方式,丰富了生成音频的方式,同时也相较于深度神经网络模型,本申请提供的音频生成方法无需大量的数据进行模型训练,进而降低了成本投入。
关于音频生成装置的具体限定可以参见上文中对于音频生成方法的限定,在此不再赘述。上述音频生成装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端设备,其内部结构图可以如图5所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种音频生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的音频生成方法可以实现为一种计算机程序的形式,计算机程序可在如图6所示的电子设备上运行。电子设备的存储器中可存储组成该音频生成装置的各个程序模块,比如,图5所示的获取单元、检测单元、处理单元、融合单元、生成单元。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的音频生成方法中的步骤。
例如,图6所示的电子设备可以通过如图5所示的音频生成装置中的获取单元执行步骤获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径。通过处理单元执行步骤获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度。可通过生成单元执行步骤基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色。可通过合成单元执行步骤根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:监测显示屏幕中的用户触控信息;基于所述用户触控信息,生成所述目标触控路径。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述目标触控路径对应的移动速度;基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述目标音频进行平滑处理,生成待播放目标音频并播放。
本申请实施例所提供的电子设备,通过获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。本申请实施例通过获取所述目标触控路径的属性信息,再基于所述属性信息中的所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,最终基于所述音频响度、音频音调以及音频音色合成所述目标音频,相较于现有技术中的基于MIDI格式,ABC记谱法生成音频的方式,丰富了生成音频的方式,同时也相较于深度神经网络模型,本申请提供的音频生成方法无需大量的数据进行模型训练,进而降低了成本投入。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:监测显示屏幕中的用户触控信息;基于所述用户触控信息,生成所述目标触控路径。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述目标触控路径对应的移动速度;基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述目标音频进行平滑处理,生成待播放目标音频并播放。
本申请实施例所提供的计算机可读存储介质,通过获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。本申请实施例通过获取所述目标触控路径的属性信息,再基于所述属性信息中的所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,最终基于所述音频响度、音频音调以及音频音色合成所述目标音频,相较于现有技术中的基于MIDI格式,ABC记谱法生成音频的方式,丰富了生成音频的方式,同时也相较于深度神经网络模型,本申请提供的音频生成方法无需大量的数据进行模型训练,进而降低了成本投入。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种音频生成方法,其特征在于,应用于包括:
获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;
获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;
基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;
根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
2.根据权利要求1所述的方法,其特征在于,所述获取目标触控路径,包括:
监测显示屏幕中的用户触控信息;
基于所述用户触控信息,生成所述目标触控路径。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色,包括:
根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度;
根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调;
根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标触控路径的位置信息,确定所述目标触控路径对应的音频响度,包括:
基于所述目标触控路径的位置信息,确定所述目标触控路径对应的位置坐标序列;
根据所述目标触控路径对应的位置坐标序列,确定所述位置坐标序列中的每一个位置坐标对应的所述音频响度,以获取所述目标触控路径对应的音频响度。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标触控路径的路径长度,确定所述目标触控路径对应的音频音调,包括:
基于预设对应关系,获取与所述目标触控路径的路径长度匹配的音频频率,以确定所述目标触控路径对应的音频音调;所述预设对应关系包括所述路径长度和音频频率的对应关系。
6.根据权利要求3所述的方法,其特征在于,所述根据所述目标触控路径的移动速度,确定所述目标触控路径对应的音频音色,包括:
获取所述目标触控路径对应的移动速度;
基于所述目标触控路径对应的移动速度,确定所述目标触控路径对应的泛音信息;
根据所述目标触控路径对应的泛音信息,获取所述目标触控路径对应的音频音色。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频之后,所述方法还包括:
对所述目标音频进行平滑处理,生成待播放目标音频并播放。
8.一种音频生成装置,其特征在于,包括:
获取单元,用于获取目标触控路径;所述目标触控路径为在预设单位时长内用户在显示设备的显示屏幕上进行触控生成的触控路径;
处理单元,用于获取所述目标触控路径的属性信息;所述属性信息包括所述目标触控路径的位置信息、路径长度以及移动速度;
生成单元,用于基于所述目标触控路径的位置信息、路径长度以及移动速度,生成对应的音频响度、音频音调以及音频音色;
合成单元,用于根据所述音频响度、所述音频音调以及所述音频音色,合成目标音频。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410059058.7A CN118098194A (zh) | 2024-01-15 | 2024-01-15 | 一种音频生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410059058.7A CN118098194A (zh) | 2024-01-15 | 2024-01-15 | 一种音频生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118098194A true CN118098194A (zh) | 2024-05-28 |
Family
ID=91144687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410059058.7A Pending CN118098194A (zh) | 2024-01-15 | 2024-01-15 | 一种音频生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118098194A (zh) |
-
2024
- 2024-01-15 CN CN202410059058.7A patent/CN118098194A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9640047B2 (en) | Method and apparatus for generating haptic signal with auditory saliency estimation | |
CN112216294B (zh) | 音频处理方法、装置、电子设备及存储介质 | |
CN113556604B (zh) | 音效调节方法、装置、计算机设备和存储介质 | |
CN115442709A (zh) | 音频处理方法、虚拟低音增强系统、设备和存储介质 | |
KR20110100283A (ko) | 통신들을 적응시키기 위한 방법 및 시스템 | |
CN110910895B (zh) | 一种声音处理的方法、装置、设备和介质 | |
WO2020008931A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US6756532B2 (en) | Waveform signal generation method with pseudo low tone synthesis | |
WO2021111965A1 (ja) | 音場生成システム、音声処理装置および音声処理方法 | |
CN118098194A (zh) | 一种音频生成方法及装置 | |
CN114402382A (zh) | 信息处理方法、推定模型构建方法、信息处理装置及推定模型构建装置 | |
Bader | Characterizing classical guitars using top plate radiation patterns measured by a microphone array | |
Mu | Perceptual quality improvement and assessment for virtual bass system | |
CN113393863B (zh) | 一种语音评价方法、装置和设备 | |
WO2022143530A1 (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
CN112435644B (zh) | 音频信号输出方法及装置、存储介质、计算机设备 | |
CN111739496B (zh) | 音频处理方法、装置及存储介质 | |
JP2008040431A (ja) | 音声加工装置 | |
WO2010084830A1 (ja) | 音声処理装置、チャットシステム、音声処理方法、情報記憶媒体、ならびに、プログラム | |
CN114171037A (zh) | 音色转换处理方法、装置、电子设备及存储介质 | |
CN112420006A (zh) | 运行模拟乐器组件的方法及装置、存储介质、计算机设备 | |
CN111696566A (zh) | 语音处理方法、装置和介质 | |
CN112532788A (zh) | 音频播放方法、终端及存储介质 | |
Cuzzucoli et al. | The Sound | |
KR20150119013A (ko) | 분리용 데이터 처리 장치 및 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |