CN107948704B - 用于对音频数据进行动态合成的方法、系统以及移动终端 - Google Patents

用于对音频数据进行动态合成的方法、系统以及移动终端 Download PDF

Info

Publication number
CN107948704B
CN107948704B CN201711487262.5A CN201711487262A CN107948704B CN 107948704 B CN107948704 B CN 107948704B CN 201711487262 A CN201711487262 A CN 201711487262A CN 107948704 B CN107948704 B CN 107948704B
Authority
CN
China
Prior art keywords
audio stream
audio
bit width
sampling frequency
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711487262.5A
Other languages
English (en)
Other versions
CN107948704A (zh
Inventor
盛强
管帅朝
陈荣
杨博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Anyun Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Anyun Century Technology Co Ltd filed Critical Beijing Anyun Century Technology Co Ltd
Priority to CN201711487262.5A priority Critical patent/CN107948704B/zh
Publication of CN107948704A publication Critical patent/CN107948704A/zh
Application granted granted Critical
Publication of CN107948704B publication Critical patent/CN107948704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种用于对音频数据进行动态合成的方法、系统及移动终端,其中方法包括:利用数据获取服务获取第一音频数据;响应于接收到针对所述第一音频数据的动态合成请求,选择第二音频数据;对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率;根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,并且确定合成采样位宽和合成采样频率;以及从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。

Description

用于对音频数据进行动态合成的方法、系统以及移动终端
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种用于对音频数据进行动态合成的方法、系统以及移动终端。
背景技术
目前,随着智能终端及相关技术的快速发展,终端设备已经在人们的生活中越来越普及,极大地方便了人们的生活、娱乐和学习,常见的终端设备包括手机、笔记本电脑、平板电脑、穿戴智能设备等移动终端,或如电视、台式计算机之类的非移动终端。随着终端的普及,人们能够更加方便的进行视频沟通或传送图片。然而,在很多时候,由于需要达到特定的效果,人们需要进行视频聊天的过程中播放音乐以作为背景音效。
但是,由于常用的通讯应用缺少对音频数据的特殊处理功能,如现在人们常用的通讯应用,微信或QQ等,人们在利用微信或QQ进行视频交流的过程中,无法进行音频的有效合成。微信或QQ,做为通讯应用越来越广泛的被人们用于视频沟通,但是微信或QQ应用由于缺少对音频数据进行实时处理的功能,不能满足人们对视频数据特殊场景化处理,或对视频数据进行特殊处理的需求。
发明内容
根据本发明的一个方面,提供一种用于对音频数据进行动态合成的方法,所述方法包括:
利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据;
响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据;
对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率;
根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率;以及
从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。
所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。
响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。
所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。
其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。
其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。
在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。
所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,对所述第一音频流中的噪声进行逐采样点降噪。
所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
还包括当预定采样位宽小于实际采样位宽时,将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流。
还包括当预定采样位宽大于实际采样位宽时,将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第一音频流。
所述根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置包括:根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。
当预定采样频率小于实际采样频率时,将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。
当预定采样频率大于实际采样频率时,将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
根据本发明的一个方面,提供一种用于对音频数据进行动态合成的系统,所述系统包括:
获取单元,利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据;
选择单元,响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据;
解码单元,对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率;
处理单元,根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率;以及
合成单元,从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。
所述获取单元利用所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。
获取单元响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。
所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。
其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。
其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。
在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,所述合成单元还用于根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。
所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,所述合成单元对所述第一音频流中的噪声进行逐采样点降噪。
所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
还包括当预定采样位宽小于实际采样位宽时,所述处理单元将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流。
还包括当预定采样位宽大于实际采样位宽时,所述处理单元将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第一音频流。
所述处理单元根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。
当预定采样频率小于实际采样频率时,所述处理单元将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。
当预定采样频率大于实际采样频率时,所述处理单元将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
根据本发明的一个方面,提供一种移动终端,包括或用于执行如上所述的系统。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的对音频数据进行动态合成的方法的流程图;
图2为根据本发明实施方式的对音频数据进行动态合成的示意图;
图3为根据本发明另一实施方式的对音频数据进行动态合成的示意图;
图4为根据本发明另一实施方式的对音频数据进行动态合成的示意图;以及
图5为根据本发明另一实施方式的对音频数据进行动态合成的系统的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的对音频数据进行动态合成的方法100的流程图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地,本申请对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率。根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。
如图1所示,方法100从步骤101处开始。在步骤101,利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据。所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。数据获取服务可以是声音获取服务。应当了解的是,本申请可以使用各种类型的声音获取器件来获取所述第一音频数据。通常,当用户通过用户设备来获取视频数据时,音频数据会和图像数据同步混合。此外,用户设备可以响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。通常,用于描述音频数据的属性包括采样位宽和采样频率。根据声音获取器件或声音获取服务的不同,采样位宽和采样频率可以不同。此外,可以根据用户的设置来获取不同采样位宽和采样频率的音频数据。
在步骤102,响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据。所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。例如,第二音频数据是用户存储在用户设备的存储空间内的音频数据,或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。第二音频数据可以是各种类型的音频数据,例如MP3、WAV等。其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。即,在对第二音频数据与第一音频数据进行动态合成时,可以实时地控制第二音频的播放。这种播放例如是暂停、播放、快进等。其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。浮动标识可以是悬浮在显示界面上的浮球等各种类型的标识。
在步骤103,对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率。在确定了所述第二视频流的实际采样位宽和实际采样频率后,还包括当预定采样位宽小于实际采样位宽时,将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流;当预定采样位宽大于实际采样位宽时,将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第一音频流。
在确定了所述第二视频流的实际采样位宽和实际采样频率后,还包括当预定采样频率小于实际采样频率时,将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值;当预定采样频率大于实际采样频率时,将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
在步骤104,根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置。其中所述根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置包括:根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。即,以所述初始合成位置为起始位置,对第二音频流和第一音频流进行动态合成。
在对第二音频流和第一音频流进行合成时,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。通过这种方式,本申请能够保证第二音频流和第一音频流均不会发生失真或丢帧的情况。
在步骤105,从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,对所述第一音频流中的噪声进行逐采样点降噪。其中按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成包括:按照第一音频流的每个时间点为准,将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行逐个时间点(或逐个采样点)的动态合成。可替换地,本申请还可以按照以所述第二音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第一音频流中的每个采样点与所述第二音频流的每个采样点进行动态合成。
此外,为了能够对第一音频流或第二音频流的声音(音量)进行控制,在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。其中第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
图2为根据本发明实施方式的对音频数据进行动态合成的示意图。本发明的实施方式,在用户设备(或移动终端)的任何应用开启麦克风装置时,支持将选择的音频数据与麦克风装置获取的音频数据进行合成。图2中通过触发按钮201触发对音频数据的选择,即视频数据的选择可以通过触发按钮201来触发。显示界面202是用户通过用户设备进行摄像或视频聊天时的界面。当用户系统在进行摄像或视频聊天的同时增加背景音乐时,可以通过触发按钮201来激活控制单元203。如图2所示,控制单元203可以是用于音频播放的简单控制键,例如上一首、播放/暂停以及下一首。
图3为根据本发明另一实施方式的对音频数据进行动态合成的示意图。在通过触发按钮301触发对音频数据的选择后,激活控制单元203。用户可以通过控制单元203来选择作为动态合成的静态输入数据的音频数据。所述音频数据是预先存储在用户设备中的,或者所述音频数据是通过有线网络/无线网络接收的。例如,音频数据是用户存储在用户设备的存储空间内的音频数据,或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。音频数据可以是各种类型的音频数据,例如MP3、WAV等。如图3所示,控制单元203可以是用于音频播放的简单控制键,例如上一首、播放/暂停以及下一首。当对音频数据进行播放时,可以显示相关的进度条和音量等。
图4为根据本发明另一实施方式的对音频数据进行动态合成的示意图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地,本申请对所述第二音频数据进行解码以获得第二音频流402,确定所述第二视频流402的实际采样位宽和实际采样频率。根据所述第二音频流402的生成时间,在所述第一音频数据的第一音频流401中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流401的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流402中的每个采样点与所述第一音频流401的每个采样点进行动态合成。
图5为根据本发明另一实施方式的对音频数据进行动态合成的系统500的结构示意图。本申请能够对作为动态合成的动态输入数据的具有预定采样位宽和预定采样频率的第一音频数据和作为动态合成的静态输入数据的第二音频数据进行动态合成。具体地,本申请对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率。根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。基于初始合成位置以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。
系统500包括:获取单元501、选择单元502、解码单元503、处理单元504以及合成单元505。获取单元501利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据。所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。数据获取服务可以是声音获取服务。应当了解的是,本申请可以使用各种类型的声音获取器件来获取所述第一音频数据。通常,当用户通过用户设备来获取视频数据时,音频数据会和图像数据同步混合。此外,用户设备可以响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。通常,用于描述音频数据的属性包括采样位宽和采样频率。根据声音获取器件或声音获取服务的不同,采样位宽和采样频率可以不同。此外,可以根据用户的设置来获取不同采样位宽和采样频率的音频数据。
选择单元502响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据。所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。例如,第二音频数据是用户存储在用户设备的存储空间内的音频数据,或者是用户通过用户设备从服务器或其它用户设备经由有线网络/无线网络接收的音频数据。第二音频数据可以是各种类型的音频数据,例如MP3、WAV等。其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。即,在对第二音频数据与第一音频数据进行动态合成时,可以实时地控制第二音频的播放。这种播放例如是暂停、播放、快进等。其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。浮动标识可以是悬浮在显示界面上的浮球等各种类型的标识。
解码单元503对所述第二音频数据进行解码以获得第二音频流,确定所述第二视频流的实际采样位宽和实际采样频率。在确定了所述第二视频流的实际采样位宽和实际采样频率后,还包括当预定采样位宽小于实际采样位宽时,将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流;当预定采样位宽大于实际采样位宽时,将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第一音频流。
在确定了所述第二视频流的实际采样位宽和实际采样频率后,还包括当预定采样频率小于实际采样频率时,将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值;当预定采样频率大于实际采样频率时,将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
处理单元504根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置。其中所述根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置包括:根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。即,以所述初始合成位置为起始位置,对第二音频流和第一音频流进行动态合成。
在对第二音频流和第一音频流进行合成时,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率。通过这种方式,本申请能够保证第二音频流和第一音频流均不会发生失真或丢帧的情况。
合成单元505从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成。在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,对所述第一音频流中的噪声进行逐采样点降噪。其中按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成包括:按照第一音频流的每个时间点为准,将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行逐个时间点(或逐个采样点)的动态合成。可替换地,本申请还可以按照以所述第二音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第一音频流中的每个采样点与所述第二音频流的每个采样点进行动态合成。
此外,为了能够对第一音频流或第二音频流的声音(音量)进行控制,在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。其中第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
此外,本发明还包括用于执行如上所述的各种系统的移动终端。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (27)

1.一种用于对音频数据进行动态合成的方法,所述方法包括:
利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据;
响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据;
对所述第二音频数据进行解码以获得第二音频流,确定所述第二音频流的实际采样位宽和实际采样频率;
根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率;以及
从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成;
还包括当预定采样位宽小于实际采样位宽时,将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流;或者,
当预定采样位宽大于实际采样位宽时,将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第二音频流。
2.根据权利要求1所述的方法,所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。
3.根据权利要求1所述的方法,响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。
4.根据权利要求1所述的方法,所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。
5.根据权利要求4所述的方法,其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。
6.根据权利要求1所述的方法,其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。
7.根据权利要求1所述的方法,在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,还包括根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。
8.根据权利要求7所述的方法,所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,对所述第一音频流中的噪声进行逐采样点降噪。
9.根据权利要求7所述的方法,所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
10.根据权利要求1所述的方法,将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
11.根据权利要求1所述的方法,所述根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置包括:根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。
12.根据权利要求1所述的方法,当预定采样频率小于实际采样频率时,将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。
13.根据权利要求1所述的方法,当预定采样频率大于实际采样频率时,将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
14.一种用于对音频数据进行动态合成的系统,所述系统包括:
获取单元,利用数据获取服务以预定采样位宽和预定采样频率来获取能够作为动态合成的动态输入数据的第一音频数据;
选择单元,响应于接收到针对所述第一音频数据的动态合成请求,选择作为动态合成的静态输入数据的第二音频数据;
解码单元,对所述第二音频数据进行解码以获得第二音频流,确定所述第二音频流的实际采样位宽和实际采样频率;
处理单元,根据所述第二音频流的生成时间,在所述第一音频数据的第一音频流中确定初始合成位置,将预定采样位宽和实际采样位宽中的最大值作为合成采样位宽,以及将预定采样频率和实际采样频率中的最大值作为合成采样频率;以及
合成单元,从所述初始合成位置开始,以所述第一音频流的时间、合成采样位宽和合成采样频率为基础并且按照时间对准的方式将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成;
还包括当预定采样位宽小于实际采样位宽时,所述处理单元将所述第一音频流的预定采样位宽的值修改为实际采样位宽的值,并且基于所述实际采样位宽的值来修改所述第一音频流;或者,
当预定采样位宽大于实际采样位宽时,所述处理单元将所述第二音频流的实际采样位宽的值修改为预定采样位宽的值,并且基于所述预定采样位宽的值来修改所述第二音频流。
15.根据权利要求14所述的系统,所述获取单元利用所述数据获取服务通过使用用户设备的麦克风来获取所述第一音频数据。
16.根据权利要求14所述的系统,获取单元响应于用户发起的针对于数据获取服务的启动请求来启动数据获取服务。
17.根据权利要求14所述的系统,所述第二音频数据是预先存储在用户设备中的,或者所述第二音频数据是通过有线网络/无线网络接收的。
18.根据权利要求17所述的系统,其中第二音频数据与第一音频数据的动态合成方式为支持实时控制的音频附加合成。
19.根据权利要求14所述的系统,其中通过触发浮动标识来生成针对所述第一音频数据的动态合成请求。
20.根据权利要求14所述的系统,在将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,所述合成单元还用于根据所述第二音频流和第一音频流各自的权重来确定所述第二音频流和第一音频流各自的输出功率。
21.根据权利要求20所述的系统,所述将所述第二音频流中的每个采样点与所述第一音频流的每个采样点进行动态合成时,所述合成单元对所述第一音频流中的噪声进行逐采样点降噪。
22.根据权利要求20所述的系统,所述第二音频流的第二权重值和所述第一音频流的第一权重值均为百分比权重值,并且第二权重值和第一权重值的和为100%。
23.根据权利要求14所述的系统,将经过动态合成所生成的合成音频流作为所述数据获取服务的基础音频数据,使得用户设备中所有应用所获取的音频数据为所述基础音频数据而不是所述第一音频数据。
24.根据权利要求14所述的系统,所述处理单元根据所述第二音频流的生成时间确定初始合成时间,基于所述初始合成时间在所述第一音频数据的第一音频流中确定初始合成位置。
25.根据权利要求14所述的系统,当预定采样频率小于实际采样频率时,所述处理单元将所述第一音频流的预定采样频率的值修改为实际采样频率的值,并且所述第一音频流增加至少一个采样点以使得所述第一音频流的采样频率等于所述实际采样频率的值。
26.根据权利要求14所述的系统,当预定采样频率大于实际采样频率时,所述处理单元将所述第二音频流的实际采样频率的值修改为预定采样频率的值,并且所述第二音频流增加至少一个采样点以使得所述第二音频流的采样频率等于所述预定采样频率的值。
27.一种移动终端,包括或用于执行如权利要求14-26中任意一项所述的系统。
CN201711487262.5A 2017-12-29 2017-12-29 用于对音频数据进行动态合成的方法、系统以及移动终端 Active CN107948704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711487262.5A CN107948704B (zh) 2017-12-29 2017-12-29 用于对音频数据进行动态合成的方法、系统以及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711487262.5A CN107948704B (zh) 2017-12-29 2017-12-29 用于对音频数据进行动态合成的方法、系统以及移动终端

Publications (2)

Publication Number Publication Date
CN107948704A CN107948704A (zh) 2018-04-20
CN107948704B true CN107948704B (zh) 2020-06-23

Family

ID=61937118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711487262.5A Active CN107948704B (zh) 2017-12-29 2017-12-29 用于对音频数据进行动态合成的方法、系统以及移动终端

Country Status (1)

Country Link
CN (1) CN107948704B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113031903B (zh) * 2021-03-23 2023-01-24 青岛海信移动通信技术股份有限公司 电子设备及其音频流合成方法
CN113132794A (zh) * 2021-05-13 2021-07-16 北京字节跳动网络技术有限公司 直播背景音处理方法、装置、设备、介质及程序产品
CN117979210B (zh) * 2024-01-31 2024-09-17 广东保伦电子股份有限公司 音频传输方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069481A (zh) * 2010-07-20 2013-04-24 华为技术有限公司 音频信号合成器
CN105869621A (zh) * 2016-05-20 2016-08-17 广州华多网络科技有限公司 音频合成装置及其音频合成的方法
CN106531177A (zh) * 2016-12-07 2017-03-22 腾讯科技(深圳)有限公司 一种音频处理的方法、移动终端以及系统
CN106816152A (zh) * 2016-12-05 2017-06-09 乐视控股(北京)有限公司 一种音频混音方法、装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069481A (zh) * 2010-07-20 2013-04-24 华为技术有限公司 音频信号合成器
CN105869621A (zh) * 2016-05-20 2016-08-17 广州华多网络科技有限公司 音频合成装置及其音频合成的方法
CN106816152A (zh) * 2016-12-05 2017-06-09 乐视控股(北京)有限公司 一种音频混音方法、装置和电子设备
CN106531177A (zh) * 2016-12-07 2017-03-22 腾讯科技(深圳)有限公司 一种音频处理的方法、移动终端以及系统

Also Published As

Publication number Publication date
CN107948704A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107948704B (zh) 用于对音频数据进行动态合成的方法、系统以及移动终端
US9525392B2 (en) System and method for dynamically adapting playback device volume on an electronic device
CN105450642A (zh) 一种基于在线直播的数据处理方法、相关装置及系统
CN107682752B (zh) 视频画面显示的方法、装置、系统、终端设备及存储介质
CN105451056B (zh) 音视频同步方法及装置
CN110992920B (zh) 直播合唱方法、装置、电子设备及存储介质
CN104464743B (zh) 一种在语音聊天室中播放背景音乐的方法及移动终端
CN106331830A (zh) 直播处理方法、装置、设备及系统
US10297269B2 (en) Automatic calculation of gains for mixing narration into pre-recorded content
CN112099750A (zh) 一种屏幕共享方法、终端、计算机存储介质以及系统
CN108141630B (zh) 电子装置、控制媒体内容流的方法和计算机存储介质
US20170171497A1 (en) Method and Device for Automatically Adjusting Volume
KR101994295B1 (ko) 단말기 및 상기 단말기에서 라이브이미지 생성방법
US9640192B2 (en) Electronic device and method of controlling electronic device
JP2010157906A (ja) 映像表示装置
WO2013022483A1 (en) Methods and apparatus for automatic audio adjustment
CN115086729B (zh) 一种连麦展示方法、装置、电子设备、计算机可读介质
CN103491125A (zh) 远程多媒体信息接收方法及终端
US20150382054A1 (en) Multimedia playing control method, apparatus for the same and system
CN104683550A (zh) 一种信息处理方法及电子设备
CN107340990B (zh) 播放方法及装置
TWI581626B (zh) 影音自動處理系統及方法
CN104714770B (zh) 一种信息处理方法及电子设备
CN104866208A (zh) 信息处理方法和电子设备
JP2020135556A (ja) 処理装置、プログラム、及び処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant