CN113707174B - 一种音频驱动的动画特效的生成方法 - Google Patents

一种音频驱动的动画特效的生成方法 Download PDF

Info

Publication number
CN113707174B
CN113707174B CN202111014335.5A CN202111014335A CN113707174B CN 113707174 B CN113707174 B CN 113707174B CN 202111014335 A CN202111014335 A CN 202111014335A CN 113707174 B CN113707174 B CN 113707174B
Authority
CN
China
Prior art keywords
spectrum data
audio
spectrum
generating
animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111014335.5A
Other languages
English (en)
Other versions
CN113707174A (zh
Inventor
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yeelion Online Network Technology Beijing Co Ltd
Original Assignee
Yeelion Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yeelion Online Network Technology Beijing Co Ltd filed Critical Yeelion Online Network Technology Beijing Co Ltd
Priority to CN202111014335.5A priority Critical patent/CN113707174B/zh
Publication of CN113707174A publication Critical patent/CN113707174A/zh
Application granted granted Critical
Publication of CN113707174B publication Critical patent/CN113707174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种音频驱动的动画特效的生成方法,当播放音频时,分批次获取当前播放中的音频对应的频谱数据,分奇数次、偶数次缓存于第一、第二缓存区;交替的从两个缓存区获取缓存的频谱数据,并生成频谱动画;并进一步判断下一批次的频谱数据是否已经被缓存;当未被缓存,则基于当前缓存的频谱数据,通过插帧补帧的处理逻辑,得到过渡频谱数据,并缓存于第三缓存区;通知下一批次的频谱数据获取临时改为从第三缓存区获取,并生成频谱动画。本发明,采用插帧补帧的处理逻辑,通过算法提高了帧率,避免刷新频率低于动画标准(一秒24帧),频谱动画更流畅,降低了动画的卡顿的情况。

Description

一种音频驱动的动画特效的生成方法
技术领域
本发明涉及音频可视化技术领域,具体说是一种音频驱动的动画特效的生成方法。
背景技术
现有的播放器,在播放音频时可同时呈现动画特效以增加用户体验,较为常用的动画特效为频谱动画,现有的频谱动画,在展示界面向用户呈现当前播放中的音频对应的音乐频谱,可以将耳边动听的声音形象化,仿佛眼前可以看到声音一样。但是,呈现频谱动画时,发现部分机型存在动画的卡顿问题,动画不能流畅播放,给用户带来不好的体验,经过初步排查原因,发现是播放器回调频谱数据时数据返回间隔时间过长导致的,因此需要针对这一问题对动画特效进行相应的优化。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种音频驱动的动画特效的生成方法,采用插帧补帧的处理逻辑,通过算法提高了帧率,避免刷新频率低于动画标准(一秒24帧),频谱动画更流畅,降低了动画的卡顿的情况。
为达到以上目的,本发明采取的技术方案是:
一种音频驱动的动画特效的生成方法,其特征在于,
当播放音频时,分批次获取当前播放中的音频对应的频谱数据,
将奇数次获取的频谱数据缓存于第一缓存区,
将偶数次获取的频谱数据缓存于第二缓存区;
从第一缓存区开始,交替的从两个缓存区获取缓存的频谱数据,并生成频谱动画;
当从第一缓存区或第二缓存区获取缓存的频谱数据,并生成频谱动画时,进一步判断第二缓存区或第一缓存区中,下一批次的频谱数据是否已经被缓存;
当下一批次的频谱数据已经被缓存,则从第二缓存区或第一缓存区中获取缓存的下一批次的频谱数据,并生成频谱动画;
当下一批次的频谱数据未被缓存,则基于当前缓存的频谱数据,通过插帧补帧的处理逻辑,得到过渡频谱数据,并缓存于第三缓存区;
通知下一批次的频谱数据获取临时改为从第三缓存区获取,并生成频谱动画。
在上述技术方案的基础上,当播放音频时,按128个频谱数据为一批次,分批次获取当前播放中的音频对应的频谱数据。
在上述技术方案的基础上,获取频谱数据的操作通过播放器对音频抽样后返回。
在上述技术方案的基础上,所述播放器默认为ijkMediaPlayer播放器。
在上述技术方案的基础上,所述插帧补帧的处理逻辑,具体步骤如下:
按如下公式计算过渡频谱数据中的128个频谱数据点值,
过渡频谱数据中的第n个点值=上组频谱数据中的第n个点值-当前频谱数据中的第n个点值*(当前时间-当前频谱数据第一次绘画时间)/(当前频谱数据绘画总时间)+当前频谱数据中的第n个点值,n取值为1-28。
在上述技术方案的基础上,当得到过渡频谱数据中的128个频谱数据点值后,进一步计算128个频谱数据点值的平方均值开方,当计算出的结果小于预设的阈值,则过渡频谱数据中的128个频谱数据点值全部置为0。
在上述技术方案的基础上,所述预设的阈值默认取平方均值开方最大值的百分之五。
在上述技术方案的基础上,预设一最高阈值,当128个频谱数据点值中的某个点值高于最高阈值,则修改该点值为最高阈值。
在上述技术方案的基础上,在生成频谱动画时,运用三阶贝塞尔曲线,在128个频谱数据点值中,基于当前频谱数据点值、之前一个频谱数据点值、之后两个频谱数据点值生成控制点。
在上述技术方案的基础上,当播放音频时,还进一步提取音乐特征矩阵和语音特征矩阵;
所述音乐特征矩阵反映音高信息以及音乐力度信息;
所述语音特征矩阵反映歌词对应的情感信息。
本发明所述的一种音频驱动的动画特效的生成方法,具有以下有益效果:
采用插帧补帧的处理逻辑,通过算法提高了帧率,避免刷新频率低于动画标准(一秒24帧),频谱动画更流畅,降低了动画的卡顿的情况。
附图说明
本发明有如下附图:
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1本发明所述一种音频驱动的动画特效的生成方法的实施例一的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。所述详细说明,为结合本发明的示范性实施例做出的说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明给出了一种音频驱动的动画特效的生成方法,包括以下步骤:
当播放音频时,分批次获取当前播放中的音频对应的频谱数据,
将奇数次获取的频谱数据缓存于第一缓存区,
将偶数次获取的频谱数据缓存于第二缓存区;
从第一缓存区开始,交替的从两个缓存区获取缓存的频谱数据,并生成频谱动画;
当从第一缓存区或第二缓存区获取缓存的频谱数据,并生成频谱动画时,进一步判断第二缓存区或第一缓存区中,下一批次的频谱数据是否已经被缓存;
当下一批次的频谱数据已经被缓存,则从第二缓存区或第一缓存区中获取缓存的下一批次的频谱数据,并生成频谱动画;
当下一批次的频谱数据未被缓存,则基于当前缓存的频谱数据,通过插帧补帧的处理逻辑,得到过渡频谱数据,并缓存于第三缓存区;
通知下一批次的频谱数据获取临时改为从第三缓存区获取,并生成频谱动画。
在上述技术方案的基础上,当播放音频时,按128个频谱数据为一批次,分批次获取当前播放中的音频对应的频谱数据。即:缓存的每一个批次的频谱数据,其中均包括128个频谱数据点值,一个批次的频谱数据即一个数据数组。
作为可选择的实施方案之一,获取频谱数据的操作通过播放器对音频抽样后返回。
作为可选择的实施方案之一,所述播放器默认为ijkMediaPlayer播放器。
在上述技术方案的基础上,所述插帧补帧的处理逻辑,具体步骤如下:
按如下公式计算过渡频谱数据中的128个频谱数据点值,
过渡频谱数据中的第n个点值=上组频谱数据中的第n个点值-当前频谱数据中的第n个点值*(当前时间-当前频谱数据第一次绘画时间)/(当前频谱数据绘画总时间)+当前频谱数据中的第n个点值,n取值为1-28。
例如:当前绘画的频谱数据来自于第一缓存区,下一批次的频谱数据未被缓存,则第二缓存区中的数据是上组频谱数据,则需要通过插帧补帧的处理逻辑,得到过渡频谱数据(共需要计算出128个频谱数据点值),并将过渡频谱数据缓存于第三缓存区,式中所述“过渡频谱数据中的第n个点值”即从第三缓存区获取的频谱数据,式中所述“上组频谱数据中的第n个点值”即从第二缓存区获取的频谱数据,式中所述“当前频谱数据中的第n个点值”即从第一缓存区获取的频谱数据。
在上述技术方案的基础上,当得到过渡频谱数据中的128个频谱数据点值后,进一步计算128个频谱数据点值的平方均值开方,当计算出的结果小于预设的阈值,则过渡频谱数据中的128个频谱数据点值全部置为0。
这一处理的目的在于过滤极小的数据,经过测试发现,极小的数据绘制出的频谱动画会导致连续频谱动画图案产生粘连,导致频谱动画存在失真,故增加所述阈值滤除影响频谱动画特效的过渡频谱数据。所述预设的阈值默认取平方均值开方最大值的百分之五,此为经验值,经测试频谱动画特效平滑度较佳,无连续频谱动画图案粘连情形,预设的阈值可根据效果自行设定。
在上述技术方案的基础上,预设一最高阈值,当128个频谱数据点值中的某个点值高于最高阈值,则修改该点值为最高阈值。
这一处理的目的在于防止连续频谱动画中出现尖锐峰值。
在上述技术方案的基础上,在生成频谱动画时,运用三阶贝塞尔曲线,在128个频谱数据点值中,基于当前频谱数据点值、之前一个频谱数据点值、之后两个频谱数据点值生成控制点。
在上述技术方案的基础上,当播放音频时,还进一步提取音乐特征矩阵和语音特征矩阵;
所述音乐特征矩阵反映音高信息以及音乐力度信息;
所述语音特征矩阵反映歌词对应的情感信息。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (10)

1.一种音频驱动的动画特效的生成方法,其特征在于,
当播放音频时,分批次获取当前播放中的音频对应的频谱数据,
将奇数次获取的频谱数据缓存于第一缓存区,
将偶数次获取的频谱数据缓存于第二缓存区;
从第一缓存区开始,交替的从两个缓存区获取缓存的频谱数据,并生成频谱动画;
当从第一缓存区或第二缓存区获取缓存的频谱数据,并生成频谱动画时,进一步判断第二缓存区或第一缓存区中,下一批次的频谱数据是否已经被缓存;
当下一批次的频谱数据已经被缓存,则从第二缓存区或第一缓存区中获取缓存的下一批次的频谱数据,并生成频谱动画;
当下一批次的频谱数据未被缓存,则基于当前缓存的频谱数据,通过插帧补帧的处理逻辑,得到过渡频谱数据,并缓存于第三缓存区;
通知下一批次的频谱数据获取临时改为从第三缓存区获取,并生成频谱动画。
2.如权利要求1所述的一种音频驱动的动画特效的生成方法,其特征在于,当播放音频时,按128个频谱数据为一批次,分批次获取当前播放中的音频对应的频谱数据。
3.如权利要求2所述的一种音频驱动的动画特效的生成方法,其特征在于,获取频谱数据的操作通过播放器对音频抽样后返回。
4.如权利要求3所述的一种音频驱动的动画特效的生成方法,其特征在于,所述播放器默认为ijkMediaPlayer播放器。
5.如权利要求1所述的一种音频驱动的动画特效的生成方法,其特征在于,所述插帧补帧的处理逻辑,具体步骤如下:
按如下公式计算过渡频谱数据中的128个频谱数据点值,
过渡频谱数据中的第n个点值=上组频谱数据中的第n个点值-当前频谱数据中的第n个点值*(当前时间-当前频谱数据第一次绘画时间)/(当前频谱数据绘画总时间)+当前频谱数据中的第n个点值,n取值为1-28。
6.如权利要求5所述的一种音频驱动的动画特效的生成方法,其特征在于,当得到过渡频谱数据中的128个频谱数据点值后,进一步计算128个频谱数据点值的平方均值开方,当计算出的结果小于预设的阈值,则过渡频谱数据中的128个频谱数据点值全部置为0。
7.如权利要求6所述的一种音频驱动的动画特效的生成方法,其特征在于,所述预设的阈值默认取平方均值开方最大值的百分之五。
8.如权利要求5所述的一种音频驱动的动画特效的生成方法,其特征在于,预设一最高阈值,当128个频谱数据点值中的某个点值高于最高阈值,则修改该点值为最高阈值。
9.如权利要求5所述的一种音频驱动的动画特效的生成方法,其特征在于,在生成频谱动画时,运用三阶贝塞尔曲线,在128个频谱数据点值中,基于当前频谱数据点值、之前一个频谱数据点值、之后两个频谱数据点值生成控制点。
10.如权利要求1所述的一种音频驱动的动画特效的生成方法,其特征在于,当播放音频时,还进一步提取音乐特征矩阵和语音特征矩阵;
所述音乐特征矩阵反映音高信息以及音乐力度信息;
所述语音特征矩阵反映歌词对应的情感信息。
CN202111014335.5A 2021-08-31 2021-08-31 一种音频驱动的动画特效的生成方法 Active CN113707174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111014335.5A CN113707174B (zh) 2021-08-31 2021-08-31 一种音频驱动的动画特效的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111014335.5A CN113707174B (zh) 2021-08-31 2021-08-31 一种音频驱动的动画特效的生成方法

Publications (2)

Publication Number Publication Date
CN113707174A CN113707174A (zh) 2021-11-26
CN113707174B true CN113707174B (zh) 2024-02-09

Family

ID=78658116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111014335.5A Active CN113707174B (zh) 2021-08-31 2021-08-31 一种音频驱动的动画特效的生成方法

Country Status (1)

Country Link
CN (1) CN113707174B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116230006A (zh) * 2023-05-09 2023-06-06 成都力比科技有限公司 一种基于gpu的音效可视化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
CN105047209A (zh) * 2015-08-13 2015-11-11 珠海市杰理科技有限公司 蓝牙音频播放同步的方法、装置及蓝牙音频播放装置
CN107885484A (zh) * 2017-12-08 2018-04-06 北京酷我科技有限公司 一种全景音效的缓存设定方法
CN111355975A (zh) * 2020-03-26 2020-06-30 郑州信大捷安信息技术股份有限公司 一种直播客户端音视频延时调节播放系统及方法
CN112738551A (zh) * 2021-02-02 2021-04-30 成都云帆数联科技有限公司 一种视频流畅播放方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047201B2 (en) * 2001-05-04 2006-05-16 Ssi Corporation Real-time control of playback rates in presentations
US8762644B2 (en) * 2010-10-15 2014-06-24 Qualcomm Incorporated Low-power audio decoding and playback using cached images
US10530888B2 (en) * 2016-06-01 2020-01-07 Home Box Office, Inc. Cached data expiration and refresh

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
CN105047209A (zh) * 2015-08-13 2015-11-11 珠海市杰理科技有限公司 蓝牙音频播放同步的方法、装置及蓝牙音频播放装置
CN107885484A (zh) * 2017-12-08 2018-04-06 北京酷我科技有限公司 一种全景音效的缓存设定方法
CN111355975A (zh) * 2020-03-26 2020-06-30 郑州信大捷安信息技术股份有限公司 一种直播客户端音视频延时调节播放系统及方法
CN112738551A (zh) * 2021-02-02 2021-04-30 成都云帆数联科技有限公司 一种视频流畅播放方法及装置

Also Published As

Publication number Publication date
CN113707174A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113707174B (zh) 一种音频驱动的动画特效的生成方法
CN110624247B (zh) 使用机器学习模型确定与实时语音相对应的嘴部的运动
US10649729B2 (en) Audio device with auditory system display and methods for use therewith
CN110177298B (zh) 一种基于语音的视频倍速播放方法及系统
CN106847305A (zh) 一种处理客服电话的录音数据的方法及装置
JPH08335100A (ja) ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム
CN111356010A (zh) 一种获取音频最适播放速度的方法与系统
CN108091323A (zh) 用于自语音中识别情感的方法与装置
CN110580912B (zh) 音乐可视化的方法、装置及系统
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
CN106251875A (zh) 一种丢帧补偿的方法及终端
CN111354367B (zh) 一种语音处理方法、装置及计算机存储介质
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
CN110400573A (zh) 一种数据处理的方法及装置
CN106653003A (zh) 语音识别方法及装置
CN108854062B (zh) 一种移动游戏的语音聊天模块
CN104934040B (zh) 音频信号的时长调整方法和装置
CN106898356B (zh) 一种适用于蓝牙语音通话的丢包隐藏方法、装置及蓝牙语音处理芯片
CN110622116A (zh) 坐标平滑方法、触控芯片及电子终端
CN114596869A (zh) 一种基于Conformer建模的语音超分辨率方法
US20130297311A1 (en) Information processing apparatus, information processing method and information processing program
CN109903784B (zh) 一种拟合失真音频数据的方法及装置
CN107833582B (zh) 基于弧长的语音信号端点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant