CN112735463A

CN112735463A - 一种音频播放延迟ai修正方法和装置

Info

Publication number: CN112735463A
Application number: CN202011484031.0A
Authority: CN
Inventors: 林东姝
Original assignee: Hangzhou Xiaopangxiong Technology Co ltd
Current assignee: Hangzhou Xiaopangxiong Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-30

Abstract

本发明涉及一种安卓移动端设备音频播放延迟的AI修正方法，包括：控制音频芯片在预定的时间间隔测量传入的模拟音频流信号；将上述模拟音频流信号转换为数字音频流信号后输入缓冲区；其中缓冲区的大小随着不同总线设置而不同；监控缓冲区的数据量，使用基于机器学习的神经网络，基于缓冲区中的数据量动态调整音频参数；修正并播放音频。

Description

一种音频播放延迟AI修正方法和装置

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种安卓移动端设备音频播放延迟AI修正方法和装置。

背景技术

声音延迟可以被定义为“信号通过系统的时间”。在移动设备中，声音延迟关系到用户点击屏幕后多久可以接收到声音的反馈。如果声音延迟太久，会让用户感觉到卡顿感，技术画面很顺滑声音慢了一样让人感到很不愉悦。

低延迟在各个应用场景中带来的问题主要有：乐器应用和音效应用：音频家无法在舞台上演奏，使用Android设备的演奏者总比其它人慢半拍。甚至无法用于练习。DJ无法进行节拍匹配，因为他们在耳机听到的信号要远远落后于播放给听众的主信号。使用循环滚动或回声等效果也是非常困难的。游戏、声音效果，例如爆炸和枪声会卡顿延迟几帧，使游戏音频“超脱”于视觉效果，这种糟糕的用户感受，无法带来身临其境的游戏体验。VoIP应用，如Skype：如果用户使用的是Android手机，整体的音频延迟要高于网络延迟。也就是说，通过安卓系统所花费的时间比数据包在各大洲之间传输的时间要更长。虚拟现实VR：当用户转头，音频“跟随”变化太晚，破坏了三维音频的体验。去试试Paul McCartney的Google纸板眼镜的app就是一个例子。Google将会在虚拟现实领域将十亿美元的收入拱手让给苹果。

可见，低声音延迟已经是现代操作系统中不可或缺的基础功能，但是在Android设备上，由于各个厂家制定的标准不统一，采用的硬件方案不同，所以延迟问题十分突出。

发明内容

鉴于上述的分析，本发明旨在提供一种安卓移动端设备音频播放延迟AI修正方法和装置。其提供一种克服上述问题或者至少部分地解决上述问题的方法、装置。

根据本发明的一个方面，提供了一种安卓移动端设备音频播放延迟的AI修正方法，

控制音频芯片在预定的时间间隔测量传入的模拟音频流信号；

将上述模拟音频流信号转换为数字音频流信号后输入缓冲区，其中缓冲区的大小根据总线类型设置；

监控缓冲区的数据量，将当前的音频参数输入基于机器学习的神经网络，得到根据缓冲区中的数据量而产生的动态音频参数；

根据所述动态音频参数修正并播放音频。

可选地，其中所述音频参数包括采样率，声道和比特率。

可选地，动态调整音频参数位于音频硬件抽象层(HAL)。

可选地，其中在AudioFlinger层建立通道，如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列，此时则不会进行重采样，也不会对缓冲区大小进行修改，如果程序请求的缓冲采样率不同于原生的采样率，则需进行重采样。

可选地，其中AudioRecord不从AudioFlinger层请求新的缓冲。

可选地，音频流信号可通过总线从音频芯片传输至GPU。

可选地，所述总线包括：USB、PCI、火线。

根据本发明的一个方面，提供了一种安卓移动端设备音频播放延迟的AI修正装置，

包括音频导入模块101，用于控制音频芯片在预定的时间间隔测量传入的模拟音频流信号，将上述模拟音频流信号转换为数字音频流信号后输入缓冲区，其中缓冲区的大小根据总线类型设置；

AI音频分析模块102，用于监控缓冲区的数据量，使用将当前的音频参数输入基于机器学习的神经网络，得到基于根据缓冲区中的数据数量而产生的动态调整音频参数；

音频修正模块103，用于根据所述动态音频参数修正并播放音频。

可选地，其中所述音频参数包括采样率，声道和比特率；

可选地，AI音频分析模块102动态调整音频参数位于音频硬件抽象层(HAL)。

可选地，其中AudioRecord不从AudioFlinger层请求新的缓冲。

可选地，由AI音频分析模块102可将音频流信号通过总线从音频芯片传输至GPU。

可选地，所述总线包括：USB、PCI、火线。

本发明有益效果如下：通过安卓移动端设备音频播放延迟AI修正，可有效改善安卓移动端设备的音频播放延迟，提高了用户的游戏和影音体验。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本发明的安卓移动端设备音频播放延迟的AI修正方法的示意图；

图2为本发明的安卓移动端设备音频播放延迟的AI修正装置的结构图；

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明具体实施例公开了一种音频播放延迟AI修正方法，如图1所示：该方法包括如下步骤：

步骤100：控制音频芯片在预定的时间间隔测量传入的模拟音频流信号；将上述模拟音频流信号转换为数字音频流信号后输入缓冲区；其中缓冲区的大小随着不同总线设置而不同；音频芯片通过一个总线连接至CPU，如USB、PCI、火线等。不同数据总线的延迟取决于它内部缓冲区的大小和数量，这里的延迟通常小于1毫秒。

步骤110：对输入缓冲区进行监控，以便在监控的缓冲区的数据量达到重采样阈值时，对重采样模块的输入缓冲区中的数据进行重采样，通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的；监控缓冲区的数据量，使用基于机器学习的神经网络，基于缓冲区中的数量动态调整音频参数，将当前的音频参数输入基于机器学习的神经网络，本公开的目的在于提供一种用于推断最佳数据传输速率的机制，该最佳数据传输速率尽可能接近可达到的数据传输速率。因此，本公开提供了一种避免以下情况的机制：尝试以可能的最高数据传输速率来传输数据，认识到该最高数据传输速率是不可持续的，并且将数据传输速率降级为更可持续的值。相反，本公开中公开的机制利用神经网络技术来直接“猜测”可达到的数据传输速率。

所述音频参数包括采样率，声道和比特率；音频参数反映了安卓设备在本次语音播放中每秒钟可以处理的数据量，那么可以设置输入缓冲区的大小可以容纳在本次音频播放N秒钟处理的数据量。其中，N的取值可以根据AI音频分析模块推断而得出，例如5秒。假设音频处理参数具体为：16K的采样率，单声道，16bit的比特率，N的取值为5秒，重采样模块的输入缓冲区的大小为16/8*1*16000*5＝156KB。

在学习阶段期间，用与音频播放相对应的音频参数作为多个输入和与最佳数据传输速率相对应的多个音频参数的输出来对神经网络训练进行训练。如在神经网络领域中众所周知的，在训练阶段，由神经网络训练实现的神经网络调整其权重。此外，在学习阶段，可以调整神经网络的层数和每层节点数，以提高模型的准确性。在训练阶段结束时，由神经网络训练生成的预测模型包括层数，每层节点数和权重。

应当指出的是，输入缓冲区的大小可调。例如，当语音接收设备在本次音频播放中的音频处理参数发生变化，可以适应性调整重采样模块的输入缓冲区的大小。

具体地，动态调整音频参数位于音频硬件抽象层(HAL)；音频硬件抽象层(HAL)作为Android的媒体服务和Linux音频驱动之间的中间人，HAL是通过移动设备制造商将Android“移植”到Android设备上的实现。其实现方式是开放的，厂商可以自由创建任何类型的HAL的代码，使用预定义的结构与媒体服务产生通信。媒体服务读取HAL并要求以可选的如采样率、缓冲区大小或音效等优化参数创建输入或输出流。

可选地，利用音频芯片可以利用总线连接至GPU，借助GPU获得更大的算力，从而提高系统运算性能；其中总线包括但不限于：USB、PCI、火线。

通过AI对缓冲区的控制，可以降低环形缓冲区的中的消耗时间，提高单位使用频率，降低资源消耗。

步骤130：随后，根据得到的音频参数修正并播放音频，其中在AudioFlinger层建立通道，如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列，此时则不会进行重采样，也不会对缓冲区大小进行修改。原生即是AOSP，是不包括厂商或运营商定制程序以及任何第三方修改的Android系统，其中AudioRecord不会从AudioFlinger层请求新的缓冲。如果程序请求的缓冲采样率不同于原生的采样率，则需进行重采样。

为Audio Flinger建立一个“快速混音”通道。如果用户程序使用的是原生[Android NDK]代码并以原生的硬件采样率和周期大小设置音频缓冲队列，在这个步骤下就不会出现重采样、增加缓冲和混合[MixerThread]。例如，原生的硬件采样率为48000Hz。

一般地，在用户程序的进程里了，AudioRecord实现音频输入端的应用，这是一个客户端功能库[以通过OpenGL ES为例]。AudioRecord会以推送的机制理念定期运行一个线程从Audio Flinger处请求新的缓冲。

而在本技术方案中，AudioRecord不会从AudioFlinger层请求新的缓冲，通过上述机制，传输过程中只使用一组缓冲，就不会再音频通道中产生延迟。

本发明实施例还提供了一种音频播放延迟AI修正装置，如图2所示，其包括音频导入模块101，AI音频分析模块102，音频修正模块103；其中音频导入模块101控制音频芯片在预定的时间间隔测量传入的模拟音频流信号；将上述模拟音频流信号转换为数字音频流信号后输入缓冲区；其中缓冲区的大小随着不同总线设置而不同；音频芯片通过一个总线连接至CPU，如USB、PCI、火线等。不同数据总线的延迟取决于它内部缓冲区的大小和数量，这里的延迟通常小于1毫秒。

AI音频分析模块102对输入缓冲区进行监控，以便在监控的缓冲区的数据量达到重采样阈值时，对重采样模块的输入缓冲区中的数据进行重采样，通过对数据进行重采样的方式减少缓存的数据量，相当于在语音接收设备加速播放，达到了降低延迟的目的；由AI音频分析模块102监控缓冲区的数据量，使用神经网络，基于缓冲区中的数量动态调整音频参数，本公开的目的在于提供一种用于推断最佳数据传输速率的机制，该最佳数据传输速率尽可能接近可达到的数据传输速率。因此，本公开提供了一种避免以下情况的机制：尝试以可能的最高数据传输速率来传输数据，认识到该最高数据传输速率是不可持续的，并且将数据传输速率降级为更可持续的值。相反，本公开中公开的机制利用神经网络技术来直接“猜测”可达到的数据传输速率。

在学习阶段期间，用与音频播放相对应的音频参数作为多个输入和与最佳数据传输速率相对应的多个输出来对神经网络训练进行训练。如在神经网络领域中众所周知的，在训练阶段，由神经网络训练实现的神经网络调整其权重。此外，在学习阶段，可以调整神经网络的层数和每层节点数，以提高模型的准确性。在训练阶段结束时，由神经网络训练生成的预测模型包括层数，每层节点数和权重。

具体地，AI音频分析模块102动态调整音频参数位于音频硬件抽象层(HAL)；音频硬件抽象层(HAL)作为Android的媒体服务和Linux音频驱动之间的中间人，HAL是通过移动设备制造商将Android“移植”到Android设备上的实现。其实现方式是开放的，厂商可以自由创建任何类型的HAL的代码，使用预定义的结构与媒体服务产生通信。媒体服务读取HAL并要求以可选的如采样率、缓冲区大小或音效等优化参数创建输入或输出流。

可选地，AI音频分析模块102利用音频芯片可以利用总线连接至GPU，借助GPU获得更大的算力，从而提高系统运算性能；其中总线包括但不限于：USB、PCI、火线。

通过AI音频分析模块102可以降低环形缓冲区的中的消耗时间，提高单位使用频率，降低资源消耗。

随后，音频修正模块103修正并播放音频，其中在AudioFlinger层建立通道，如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列，此时则不会进行重采样，也不会对缓冲区大小进行修改。其中AudioRecord不会从AudioFlinger层请求新的缓冲。原生即是AOSP，是不包括厂商或运营商定制程序以及任何第三方修改的Android系统，其中AudioRecord不会从AudioFlinger层请求新的缓冲。如果程序请求的缓冲采样率不同于原生的采样率，则需进行重采样。

音频修正模块103，为Audio Flinger建立一个“快速混音”通道。如果用户程序使用的是原生[Android NDK]代码并以原生的硬件采样率和周期大小设置音频缓冲队列，在这个步骤下就不会出现重采样、增加缓冲和混合[MixerThread]。

而在本技术方案中，在音频修正模块103控制下，AudioRecord不会从AudioFlinger层请求新的缓冲，通过上述机制，传输过程中只使用一组缓冲，就不会再音频通道中产生延迟。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的机器人中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域技术人员可以理解，实现上述实施例的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种安卓移动端设备音频播放延迟的AI修正方法，其特征在于，

根据所述动态音频参数修正并播放音频。

2.根据权利要求1所述的AI修正方法，其特征在于，其中所述音频参数包括采样率，声道和比特率。

3.根据权利要求1所述的AI修正方法，其特征在于，其中在AudioFlinger层建立通道，如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列，此时不进行重采样，也不对缓冲区大小进行修改；如果程序请求的缓冲采样率不同于原生的采样率，则需进行重采样。

4.根据权利要求1所述的AI修正方法，其特征在于，其中AudioRecord不从AudioFlinger层请求新的缓冲。

5.根据权利要求1所述的AI修正方法，其特征在于，音频流信号可通过总线从音频芯片传输至GPU。

6.一种安卓移动端设备音频播放延迟的AI修正装置，其特征在于，该装置包括：

音频导入模块101，用于控制音频芯片在预定的时间间隔测量传入的模拟音频流信号，将上述模拟音频流信号转换为数字音频流信号后输入缓冲区，其中缓冲区的大小根据总线类型设置；

7.根据权利要求6所述的AI修正装置，其特征在于，其中所述音频参数包括采样率，声道和比特率；

所述AI音频分析模块102动态调整音频参数位于音频硬件抽象层(HAL)。

8.根据权利要求6所述的AI修正装置，其特征在于，其中在AudioFlinger层建立通道，如果用户程序使用的是原生代码并以原生的硬件采样率和周期大小设置音频缓冲队列，此时不进行重采样，也不对缓冲区大小进行修改；如果程序请求的缓冲采样率不同于原生的采样率，则需进行重采样。

9.根据权利要求8所述的AI修正装置，其特征在于，其中AudioRecord不会从AudioFlinger层请求新的缓冲。

10.根据权利要求8所述的AI修正装置，其特征在于，由AI音频分析模块102可将音频流信号通过总线从音频芯片传输至GPU。