CN114205695A

CN114205695A - 一种音响参数确定方法和系统

Info

Publication number: CN114205695A
Application number: CN202111494130.1A
Authority: CN
Inventors: 陈玮; 张鲲鹏
Original assignee: Hansong Nanjing Technology Co ltd
Current assignee: Hansong Nanjing Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-18

Abstract

本说明书实施例提供一种音响参数确定方法和系统，该音响参数确定方法包括：通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；根据视频，获取多个拍摄位置；根据多个拍摄位置和音频，确定目标音响的参数。

Description

一种音响参数确定方法和系统

技术领域

本说明书涉及音响领域，特别涉及一种音响参数确定方法和系统。

背景技术

随着线下服务业的快速发展，音响的应用越来越广泛。在使用音响时，用户可以通过调节音响的音响参数，以获得更好的听音体验。音响参数调节的准确性和智能化会直接影响用户的体验。

因此，需要提供一种音响参数确定方法和系统，便于准确确定音响参数。

发明内容

本说明书实施例之一提供一种音响参数确定方法，所述方法包括：通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；根据所述视频，获取多个拍摄位置；以及根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

本说明书实施例之一提供一种音响参数确定系统，所述系统包括：第一获取模块，用于通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；第二获取模块，用于根据所述视频，获取多个拍摄位置；确定模块，用于根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

本说明书实施例之一提供一种音响参数确定装置，所述装置包括：至少一个包括一组指令的存储设备；以及至少一个被配置为与所述至少一个存储设备通信的处理器，其中，当执行所述指令时，所述至少一个处理器被配置为指示所述系统执行操作，包括：通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；根据所述视频，获取多个拍摄位置；根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

本说明书实施例之一提供一种计算机可读存储介质，包括可执行指令，当由至少一个处理器执行时，所述可执行指令指示所述至少一个处理器执行一种方法，所述方法包括：通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；根据所述视频，获取多个拍摄位置；根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的音响参数确定系统的应用场景示意图；

图2是根据本说明书一些实施例所示的音响参数确定方法的示例性流程图；

图3是根据本说明书一些实施例所示的确定多个拍摄位置的示例性流程图；

图4是根据本说明书另一些实施例所示的音响参数确定方法的示例性流程图；

图5是根据本说明书一些实施例所示的音响参数确定系统的示例性模块图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书一些实施例所示的音响参数确定系统的应用场景示意图。

如图1所示，音响参数确定系统100的应用场景可以包括处理器110、网络120、存储设备130、移动设备140以及音响设备150。在一些实施例中，应用场景还包括情景示例160。

音响参数确定系统100可以通过实施本说明书中披露的方法和/或过程来进行音响参数的确定，调节音响的参数。在一些实施例中，音响参数确定系统100可以用于安装了一个或以上音响的视听空间，例如，音响参数确定系统100可以被应用于KTV、电影院、家庭影院等。在一些实施例中，音响参数确定系统100可以用于根据视听空间中音响摆放的方位，确定音响设备播放的最优参数。

处理器110可以用于获取数据和/或传输数据。例如，处理器110可以经由网络120访问存储在移动设备140、音响设备150和/或存储设备130中的信息和/或数据。处理器110是指具有计算能力的系统。在一些实施例中，处理器110可以是单一服务器或服务器组。在一些实施例中，处理器110可以是本地的或远程的。在一些实施例中，处理器110可以在云平台上实施。在一些实施例中，处理器110可以基于移动设备140获取的音频、移动设备140获取的视频和/或移动设备140的位移信息，确定音响设备150的音响参数。在一些实施例中，处理器110可以基于VR(Virtual Reality，虚拟现实)技术确定音响设备150的音响参数。

网络120可以包括能够适用于音响参数确定系统的信息和/或数据交换的任何合适的网络。在一些实施例中，音响参数确定系统的一个或多个组件(例如，处理器110、移动设备140、音响设备150和存储设备130等)可以通过网络120与音响参数确定系统的一个或多个组件之间交换信息和/或数据。

存储设备130可以存储数据和/或指令。在一些实施例中，存储设备130可以存储从移动设备140、音响设备150和/或处理器110获得的数据。例如，存储设备130可以存储从移动设备140获取的视频。又例如，存储设备130可以存储音响设备150中的音响参数。在一些实施例中，存储设备130可以存储数据和/或指令，处理器110可以执行或使用该数据和/或指令来完成本申请中描述的示例性方法。

在一些实施例中，存储设备130可以连接到网络120以与处理器110、移动设备140和/或音响设备150通信。处理器110、移动设备140和/或音响设备150可以经由网络120访问存储设备130中存储的数据或指令。在一些实施例中，存储设备130可以是处理器110、移动设备140和/或音响设备150的一部分，也可以是独立的。

移动设备140可以指用户所使用的一个或多个终端设备或软件。在一些实施例中，移动设备140是指具有输入和/或输出功能的便携式设备。例如，移动设备140可以包括智能手机141、笔记本电脑142、平板计算机143、可穿戴设备和智能移动设备等或其任意组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、手持终端(POS)等或其任意组合。在一些实施例中，移动设备140包括摄像头和麦克风。摄像头可以是移动设备执行所述视频输入功能的模块的组成部分之一，麦克风可以是移动设备中执行所述音频输入功能的模块的组成部分之一。在一些实施例中，移动设备140具有输入和/或输出功能、图像获取功能、视频获取功能或音频获取功能的设备中的一种或其任意组合。在一些实施例中，移动设备140可以获取音响所在的视听空间的VR场景，并将该VR场景上传至处理器110以确定多个测试位置并获取多个拍摄位置。关于VR场景构建及获取拍摄位置等相关内容请参见图4部分的描述。

在一些实施例中，移动设备140可以用于获取含有音响设备150的视频，还可以用于获取音响设备150播放的音频。在一些实施例中，用户可以在拍摄视频的同时在空间中进行移动来调整视频画面的内容。在一些实施例中，移动设备140可以内置有运动传感器，用于获取用户在拍摄过程中的运动信息，例如，移动的方向、速度、距离等。

音响设备150可以是由具备将音频信号转换为声音进行播放的功能的设备所组成的系统。在一些实施例中，音响设备150的组成可以包括功放、周边设备(包括压限器、效果器、均衡器、VCD、DVD等)、扬声器(音箱、喇叭)、调音台、麦克风、显示设备等。如图1所示，音响设备150可以包括音箱151、音频信号处理设备152、组合式音响设备153等其他音响播放设备。在一些实施例中，音响设备150的组成可以包括前置音箱、后置音箱、中置环绕音箱、重低音炮音箱等。

如图1所示的情景示例160，家庭影院中包括移动终端141、后置音响151-1、前置音响151-2、重低音炮音响151-3。示例性的，移动终端1401陆续经过位于沙发旁的后置音响151-1、位于电视柜旁的前置音响151-2、位于电视上方的重低音炮音响151-3，根据移动终端141的位移变化数据、移动终端141录制的包括前述音响设备的视频和/或音频，确定客厅空间中的音响的参数。

图2是根据本说明书一些实施例所示的音响参数确定方法的示例性流程图。在一些实施例中，过程200可以被实现为存储在存储设备(例如，存储设备130)中的一组指令(例如，应用程序)。处理设备(例如，处理器110和/或一个或多个模块)可以执行指令组，并且当执行指令时，处理设备可以被配置为执行过程200。下面呈现的所示过程的操作旨在说明。在一些实施例中，过程200可以利用未描述的一个或多个附加操作和/或没有讨论的一个或多个操作来完成。此外，图2中所示过程200的操作顺序和以下描述的内容并不限制本申请的范围。

步骤210，处理设备(例如，第一获取模块510)通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频。

目标音响是指待确定参数的音响设备。在一些实施例中，目标音响可以包括一个或多个音箱，或以各种组合方式排列的音响设备。例如，目标音响可以包括前置音箱、后置音箱、中置环绕音箱、重低音炮音箱中的一个或多个。又例如，目标音响可以包括音箱及音频信号处理设备(如，效果器、调音台、均衡器等)。在一些实施例中，目标音响可以用于各种视听空间中，例如，家庭影院、专业视听室等。

目标空间是指放置目标音响的场景所在的视听空间。例如，住宅的居室、餐厅的等候区、电影院的放映厅等。

目标空间的视频是指在目标空间内拍摄的视频，所述视频可以显示目标空间和/或其中的物体的信息。例如，视频可以反映出移动设备的位置、目标音响在目标空间的放置位置、目标空间中其他物体的位置、目标空间的尺寸等信息。在一些实施例中，所述视频可以有预设要求，例如包含音响等。在一些实施例中，所述视频可以在移动设备的指导下完成拍摄，例如通过语音或显示文字。在一些实施例中，所述视频可以是一段连续拍摄的视频，也可以是多段视频拼接而成。

所述目标空间的音频是指在目标空间内录制的音频，所述音频可以记录目标音响播放声音的音频信号。例如，音频可以反映出移动设备和目标音响的相对位置、目标音响的音量大小、目标音响的音质等信息。所述音频与所述视频存在对应关系。在一些实施例中，所述播放声音可以是用户输入声音，如音乐、广播等，也可以是调试音响专用的测试声音。在一些实施例中，所述音频可以是来自一个或多个目标音响；如果所述音频来自多个目标音响，所述音频可以由多个音响同时播放和/或多个音响中的每一个分别播放。

步骤220，处理设备(例如，第二获取模块520)根据所述视频，获取多个拍摄位置。

拍摄位置是指移动设备输入视频和/或音频时移动设备在目标空间里的位置信息，例如方位、方向等。一个拍摄位置对应视频中一帧图像和/或音频中的一组音频数据。在一些实施例中，拍摄位置可以通过目标空间的空间坐标系的坐标位置表示，所述空间坐标系可以是二维或三维。例如，在基于一个10x 10x10米的目标空间、以西南角为原点(0,0,0)构建的空间坐标系里，若一个移动设备处于目标空间正中央、且被拍摄者举在胸前，则该移动设备的拍摄位置可以是(5,5,1.5)。在一些实施例中，拍摄位置可以是基于音响位置确定的移动设备的相对位置。例如，音响A处于目标空间中且位置已知，拍摄位置则可以是“音响A南偏西20度，距离3米”。拍摄位置还可以以其他物体作为参考物体确定的移动设备的相对位置。例如，参考物体可以是目标空间中位置不会发生变化的物体，比如家具、壁画等。

在一些实施例中，所述根据视频，获取多个拍摄位置包括：从所述视频中，根据预设时间间隔，提取多帧视频图像，其中所述多帧视频图像中相邻两帧视频图像有重叠部分；以及根据所述多帧视频图像，确定多个拍摄位置。

预设时间间隔是指提取视频图像的间隔时间，如2秒、1秒等。预设时间间隔可以根据实际需求设定。在一些实施例中，预设时间间隔可以根据提取到的视频图像而改变，例如，当相邻两帧视频图像没有重叠时，缩短预设时间间隔，并基于缩短后的预设时间间隔继续提取图像，直到所述两帧视频图像有重叠部分为止。

多帧视频图像指组成所述视频的视频图像的一部分或全部。多帧视频图像的每一帧对应一个拍摄位置。

所述多帧视频图像中相邻两帧视频图像有重叠部分是指所述两帧视频图像包含了至少一个相同的、可识别的物体。例如，音响、家具、装饰物等。两帧视频图像有重叠部分可以帮助获取所述两帧视频图像对应的两个拍摄位置之间的相对变化。例如，视频图像A对应拍摄位置a，其相邻的下一帧视频图像B对应拍摄位置b，两帧图像都包括音响C且已知音响位置c，则通过视频图像A可以获取拍摄位置a相对于音响位置c的位置信息ac，通过视频图像B可以获取拍摄位置b相对于音响位置c的位置信息bc，再基于两个位置信息ac和bc获取拍摄位置b相对于拍摄位置a的位置变化情况。

在一些实施例中，所述移动设备可以指导用户在拍摄时的移动。在一些实施例中，指导方式可以是语音提示、文字提示和/或画面图标提示等。在一些实施例中，所述指导可以根据移动设备接收到的信息生成和/或改变。例如，指导的方式以及指导的内容可以根据移动设备接收到的位置信息、声音信息、视觉信息等生成和/或改变。示例性的，根据移动设备接收到的位置信息，若判断移动设备与音响设备的相对距离增大，所述移动设备对应的指导的内容(例如，移动方向)可以对应调整，以缩短移动设备与音响设备的相对距离，保证指导的准确性。一些实施例中，所述指导也可以是简单、宽泛的提示，如“移动至第一个音响”等。在一些实施例中，当移动过快或者其他原因导致两帧相邻视频图像没有重叠部分时，所述移动设备可以指导用户回到前一个位置并且重新按要求移动。在一些实施例中，所述移动设备可以根据音响发出的声音大小及所述声音所在的方位指导用户移动至一个或多个音响位置，也可以根据位置信息指导用户移动至相应的指定位置。所述指导还可以通过基于多帧视频获取的拍摄位置或其他方式获取，也可以通过振动或其他方式实现提醒。所述基于多帧视频获取拍摄位置的相关内容可以参见图3。

在一些实施例中，所述根据视频，获取多个拍摄位置还包括：根据视频和移动设备的运动传感器，获取多个拍摄位置。例如，在视频拍摄过程中，移动设备可以首先指导用户移动至参考位置(例如，音响位置)，然后结合运动传感器获得移动设备相对于参考位置的位移以进一步得到多个拍摄位置。在一些实施例中，移动设备可以通过接收到的声音信息判断用户是否到达音响位置和/或引导用户接近音响位置，例如通过音量大小、声音方位等进行判断和/或引导。关于参考位置的更详细的阐述请见图3和其相关描述。

在一些实施例中，处理设备(例如，第二获取模块520)可以基于运动传感器获取多个拍摄位置。例如，移动设备可以首先指导用户移动至参考位置(例如，音响位置)，然后通过运动传感器检测移动设备相对于参考位置的位移，从而获取多个拍摄位置。在一些实施例中，移动设备可以通过语音指导用户的移动。在一些实施例中，移动设备可以将启动运动传感器和/或麦克风的位置设为参考位置。例如，参考位置可以为当用户启动运动传感器和/或麦克风时将移动设备放置于音响正前方0.1米以内的位置。

运动传感器是指移动设备中能获取位移信息的模块。在一些实施例中，位移信息可以包括距离、方向等。在一些实施例中，位移信息的计算方式可以是基于探测到的加速度和/或角速度计算得到。

在一些实施例中，处理设备可以把基于运动传感器获取的拍摄位置和上述基于视频图像获取的拍摄位置相结合以得到更精确的拍摄位置。在一些实施例中，结合的方式可以是算术平均、加权平均等。例如，基于运动传感器获取的拍摄位置是音响正北1米，基于视频图像获取的拍摄位置是音响正北1.1米，则可以根据算数平均得到输出的拍摄位置是音响正北1.05米。再例如，若根据历史数据、移动设备参数等信息得知一个移动设备的运动传感器比其摄像头在位置确定的能力上更加精确，则可以给予运动传感器更高的权重，比如0.8，然后使用加权平均得到输出的拍摄位置是音响正北1.02米。在一些实施例中，所述结合的方式还可以采用机器学习模型和/或其他算法。

结合运动传感器获取拍摄位置，在上述结合视频获取拍摄位置的方法的基础上提供了新的考量和参数，提高了结果的准确性，也为视频不理想的情况下(比如环境过暗、摄像头不清晰或镜头损坏等情况造成的视频模糊)提供了额外的获取拍摄位置的方案。

步骤230，处理设备(例如，确定模块530)根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

在一些实施例中，处理设备分析多个拍摄位置以及其对应的多帧视频图像和多组音频数据，可以识别目标空间的布局信息，并根据布局信息确定所述目标音响的参数。

布局信息是指目标空间中布局的物体相关信息。在一些实施例中，布局信息可以包括但不限于目标音响的位置、拍摄位置与目标音响之间的距离、目标空间中的放置物的位置、放置物的材质、放置物的形状、放置物的尺寸、目标空间的尺寸、目标空间的驻波、目标空间的混响、目标音响的灵敏度、目标音响的增益公式等。

在一些实施例中，目标空间的布局信息可以通过多种方式识别。在一些实施例中，目标空间的布局信息可以通过机器学习模型和/或结合相关算法识别。其中，机器学习模型可以包括但不限于卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆(Long Short-Term Memory，LSTM)模型等。相关算法可以包括但不限于LayoutNet、Flat2Layout、E2P、几何算法、深度信息算法等。

目标音响的位置是指目标音响在目标空间中的放置位置。在一些实施例中，目标音响的位置可以通过图像识别技术识别。在一些实施例中，处理设备可以通过卷积神经网络从视频图像中提取目标音响的特征，该特征用于确定目标音响的位置，例如，处理设备通过神经网络(Neural Network,NN)对该特征进行处理，确定目标音响的位置。

在一些实施例中，拍摄位置与目标音响之间的距离可以通过多种方式识别。在一些实施例中，拍摄位置与目标音响之间的距离可以通过图像识别技术识别。在一些实施例中，处理设备可以通过卷积神经网络从视频图像中提取目标音响和拍摄位置的特征。处理设备可以根据上述特征确定拍摄位置与目标音响两者之间的基线，例如，处理设备通过神经网络对该特征进行处理，确定目标音响和拍摄位置之间的基线。处理设备结合视频图像的比例可以确定该基线在实景中对应的实际长度，将该实际长度确定为拍摄位置与目标音响之间的距离。在一些实施例中，拍摄位置与目标音响之间的距离还可以通过计算两者在目标空间中的坐标差值得到。

放置物是指目标空间中放置的物体，例如，沙发、桌椅、窗帘、挂画等家具或装饰物。在一些实施例中，放置物的位置可以通过图像识别技术识别。在一些实施例中，处理设备可以通过卷积神经网络从视频图像中提取放置物的特征，该特征用于确定放置物的位置，例如，处理设备通过神经网络对该特征进行处理，确定放置物的位置。在一些实施例中，卷积神经网络可以通过预设的算法提取放置物的特征。例如，SSD算法(Single ShotMultiBox Detector)。

放置物的材料、形状和尺寸可以影响目标音响的参数。例如，采用吸音材质的放置物可以吸收目标音响的声波，从而会减小目标音响的音质和音量等音响参数。又例如，形状不规则或尺寸较大的放置物会阻碍目标音响的声波传递，从而会减弱目标音响的环绕声效和立体声效等音响参数。

驻波是指两个波长、周期、频率和波速皆相同的正弦波相向行进干涉而成的合成波。目标空间的驻波会使目标音响发出的部分声波减弱，从而降低用户的听音体验。目标空间的驻波与目标空间的尺寸相关。例如，目标空间的尺寸越大，则目标空间的驻波的临界频率越小，驻波对目标音响的影响越小。在一些实施例中，驻波通过耦合器、检波器、单片机和/或运算放大电路等装置获取的驻波比表示。例如，在多频信号合路端口串联宽频带双向耦合器，分别提取输入功率和反射功率，送入检波器，将射频信号功率转化为直流信号，然后通过单片机或简单的运算放大电路进行运算，得出该端口的驻波比，该驻波比表示该端口的驻波。

混响是指声源发音停止后声音继续存在的声学现象。目标空间的混响会影响目标音响的音质。目标空间的混响与目标空间的尺寸、目标空间的材质有关在一些实施例中，混响可以通过混响测试设备获取。混响测试设备可以包括传声器、声校准器和/或振动噪声信号采集系统等。

目标音响的灵敏度是指当音响的功放达到满功率输出时，在输入端的信号电压大小。信号电压越大，则灵敏度越低。音响的灵敏度通常用于反映人耳主观感受的声音大小。音响的灵敏度高，用户感受音响的声音越大，但是过高的灵敏度会损害音响的音质，因此音响的灵敏度大小应控制在合理的范围才能为用户带来优质的听音体验。

目标音响的增益公式是指确定目标音响的增益过程中所用到的公式。在一些实施例中，目标音响的增益公式可以为确定目标音响的最大电压容量公式。其中，通过确定目标音响的最大电压容量可以对目标音响进行保护。

在一些实施例中，目标音响的参数可以包括但不限于目标音响的增益、目标音响的输出功率和目标音响的延迟等。

目标音响的增益是指目标音响的信号放大率。例如，较小输出电压经过放大器放大变为较大输出电压的放大率。在一些实施例中，处理设备确定目标音响的多个候选增益，并从上述多个候选增益确定目标音响的增益。目标音响的增益可以决定目标音响在同等音量下获得更好的音质提升。在一些实施例中，目标音响的增益可以通过相应的均衡器(EQ)来确定、调整。

目标音响的输出功率是指目标音响使用时的额定功率。目标音响的输出功率能够决定目标音响的最大声音强度。在一些实施例中，目标音响的输出功率可以基于视频的分析结果确定。在一些实施例中，视频的分析结果可以包括目标空间的体积。在一些实施例中，最优的目标音响的输出功率可以根据目标空间的体积与目标音响的输出功率的最佳对应关系确定。例如，当目标空间的体积为20m³时，最优的目标音响的输出功率可以根据该最佳对应关系确定为60W。

目标音响的延时是指用户接收各音响发出声音的延时。适当的延时可以提升目标音响的立体音质。例如，两个声源的延时量5ms至35ms时，人耳只能感觉到超前一个声源的存在；声源的延时量在30ms至50ms时，人耳能够大致分辨出两个声源的存在；声源的延时量大于50ms时，人耳能够感觉到两个声源同时存在。目标音响的延时越小，目标音响的音质越柔和；目标音响的延时越大，目标音响的音质立体环绕感越强。目标音响的延时数据可以通过对声音信号进行延时处理的音频设备(例如，音频延时器)确定。

在一些实施例中，目标音响的参数可以通过多种方式确定。在一些实施例中，目标音响的参数可以基于机器学习模型确定。在一些实施例中，该机器学习模型可以包括但不限于卷积神经网络、长短期记忆模型等。在一些实施例中，目标音响的参数可以通过目标音响的初始参数确定。在一些实施例中，目标音响的初始参数可以包括但不限于目标音响的增益、目标音响的输出功率和目标音响的延时中的一个或多个。在一些实施例中，目标音响的参数可以基于目标音响的初始参数和/或视频的分析结果确定。在一些实施例中，可以将目标空间的多张图像或全景图像输入至机器学习模型，输出得到较优的目标音响的参数。在一些实施例中，处理设备可以获取存储在存储设备的目标音响的原始参数，并通过辅助设备或程序(例如，音质评估应用程序)评估原始参数下目标音响的音质，确定优化后的目标音响的参数。

通过移动设备拍摄的视频和音频，用户可以更加方便地确定目标音响的参数，让专业参数调节更加智能和简单，从而为用户提供更优质的听音效果。

图3是根据本说明书一些实施例所示的确定多个拍摄位置的示例性流程图。过程300包括下述步骤。

步骤301，处理设备(例如，第一获取模块510)通过图像识别模型，在所述多帧视频图像中确定第一图像，所述第一图像包括目标音响。

图像识别模型是指具有在图像中识别物体的功能的任意模型。在一些实施例中，所述图像识别模型可以是机器学习模型。在一些实施例中，图像识别模型可以包括但不限于卷积神经网络、长短期记忆模型等。在一些实施例中，图像识别模型的输入可以是所述多帧视频图像，输出可以是所述多帧视频图像中包括目标音响的一帧或多帧，即第一图像。

步骤302，处理设备(例如，第二获取模块520)根据所述第一图像，确定参考位置。

参考位置是指对拍摄位置有指导作用的基准位置，比如拍摄位置可以以参考位置的相对方位来描述。在一些实施例中，参考位置可以是目标音响在目标空间的位置。目标音响在目标空间的位置可以根据包含目标音响的第一图像来确定。例如，根据图像里音响相对摄像头的距离和角度，确定目标音响在目标空间的位置。在一些实施例中，参考位置也可以是目标空间中的家具、装饰等任意放置物。在一些实施例中，参考位置也可以是预设的已知位置。

步骤303，处理设备(例如，第二获取模块520)根据所述参考位置和多帧视频图像，确定多个拍摄位置。

在一些实施例中，处理设备根据参考位置确定包含参考物的视频图像的拍摄位置，以及根据相邻视频图像里的重叠部分确定相邻视频图像的拍摄位置。在一些实施例中，两帧相邻视频图像的重叠部分可以被用来判断对应的两个拍摄位置之间角度和距离的变化。例如，有三帧视频图像A、B、C，其中图像A包含音响和沙发，为第一图像，对应拍摄位置a；图像B包含沙发和壁画，对应拍摄位置b；图像C只包含壁画，对应拍摄位置c。如将音响定为参照物，则根据图像A中音响距离摄像头的距离和角度，可以确定音响位置，即参考位置，以及相对于音响位置的拍摄位置a，比如拍摄位置a可以是音响位置正北1米。图像B与图像A包含沙发这个重叠部分，则根据沙发在两帧图像里的角度和距离的变化，可以确定相对于拍摄位置a和/或相对于音响位置的拍摄位置b，比如根据沙发的变化判断拍摄位置b在拍摄位置a的正南2米，则拍摄位置b可以是音响位置正南1米。类似地，图像C与图像B包含壁画这个重叠部分，则根据壁画在两帧图像里的角度和距离的变化，可以确定相对于拍摄位置b和/或相对于音响位置的拍摄位置c，比如根据壁画的变化判断拍摄位置c在拍摄位置b的正西1米，则拍摄位置c可以是音响位置南偏西45度1.41米。

根据图像识别模型、参考位置和重叠部分来确定多个拍摄位置，可以快速、便捷地建立起每两个相邻拍摄位置之间的相对位置关系，而无需耗费额外计算力来得到每个拍摄位置的绝对位置，因此提高了效率。

图4是根据本说明书另一些实施例所示的音响参数确定方法的示例性流程图。

如图4所示，过程400包括下述步骤。在一些实施例中，过程400可以由确定模块530执行。

步骤410，根据所述视频，构建目标空间的VR场景。

VR场景是指通过实景拍摄及图像处理后生成的对真实对象进行三维重建的场景。例如，目标空间的VR场景可以为基于目标空间的视频进行图像处理拼接后构建的场景。在一些实施例中，VR场景制作可以包括进行实景拍摄、图像处理及拼接。用于实景拍摄的设备包括单反相机、全景云台、鱼眼镜头、三脚架和/或飞行器等。对图像的拼接和处理可以用各种可行的方式进行。

步骤420，根据VR场景，确定多个测试位置。

测试位置是指通过计算或其他方法得到的收听目标音响的位置。在一些实施例中，所述测试位置可以是理论上收听目标音响的最佳位置。在一些实施例中，所述测试位置也可以是能最优化音响参数调节能力的声音样本收集位置。例如，在一个形状、材料十分复杂的目标空间里，光凭计算也许无法达到足够的置信度，则可以在特定的测试位置采集声音样本来补充、验证计算的结果，从而使音响参数调节能力最优化。

在一些实施例中，根据VR场景、音响位置和/或布局信息，可以计算出多个测试位置。在一些实施例中，音响位置和/或布局信息可以通过图2所示方法和其相关描述获取，也可以通过其他渠道获取。

在一些实施例中，用户可以在VR场景中输入候选测试位置。比如，用户可以输入常用沙发的位置作为候选测试位置。在一些实施例中，所述候选测试位置可以作为测试位置计算的参考。比如，当计算得出多个类似的测试位置时，可以优先考虑与候选测试位置更接近的测试位置。在一些实施例中，所述候选测试位置可以直接作为测试位置。

步骤430，通过引导用户将移动设备移动至所述多个测试位置，获取多个拍摄位置。

用户用移动设备在所述多个测试位置进行视频拍摄和/或音频录制的过程，即是将所述多个测试位置变成所述多个拍摄位置的过程。在一些实施例中，计算出的多个测试位置可以通过VR场景显示，和/或通过VR场景引导用户将移动设备移动至测试位置。

在一些实施例中，音响参数确定系统的模块500可以包括第一获取模块510、第二获取模块520和确定模块530。

在一些实施例中，第一获取模块510可以通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频。

在一些实施例中，第二获取模块520可以根据所述视频，获取多个拍摄位置。获取多个拍摄位置的相关说明可参见图2对应内容的描述。

在一些实施例中，第二获取模块520可以从所述视频中，根据预设时间间隔，提取多帧视频图像；并根据所述多帧视频图像，确定多个拍摄位置。其中，所述多帧视频图像中相邻两帧视频图像有重叠部分。

在一些实施例中，第二获取模块520可以通过图像识别模型，在所述多帧视频图像中确定所述第一图像；根据所述第一图像，确定参考位置；根据所述参考位置和所述多帧视频图像，确定所述多个拍摄位置。其中，所述第一图像包括所述目标音响。图像识别模型及其相关说明可参见图3对应内容的描述。

在一些实施例中，第二获取模块520可以根据所述视频和所述移动设备的运动传感器，获取所述多个拍摄位置。

在一些实施例中，第二获取模块520还可以根据所述视频，构建目标空间的VR场景；根据所述VR场景，确定多个测试位置；通过引导用户将所述移动设备移动至所述多个测试位置，获取所述多个拍摄位置。构建目标空间的VR场景及其相关说明可参见图4对应内容的描述。

在一些实施例中，确定模块530用于根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

应当理解，图5所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，第一获取模块510可以同于通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频。第二获取模块520可以用于根据所述视频，获取多个拍摄位置。确定模块可以用于根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

需要注意的是，以上对于上述系统及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图5中披露的第一获取模块510、第二获取模块520和确定模块530可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种音响参数确定方法，包括：

通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；

根据所述视频，获取多个拍摄位置；

根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

2.根据权利要求1所述的方法，所述根据所述视频，获取多个拍摄位置包括：

从所述视频中，根据预设时间间隔，提取多帧视频图像，其中所述多帧视频图像中相邻两帧视频图像有重叠部分；

根据所述多帧视频图像，确定多个拍摄位置。

3.根据权利要求2所述的方法，所述多帧视频图像中包括第一图像，以及所述根据所述多帧视频图像，确定多个拍摄位置包括：

通过图像识别模型，在所述多帧视频图像中确定所述第一图像，所述第一图像包括所述目标音响；

根据所述第一图像，确定参考位置；

根据所述参考位置和所述多帧视频图像，确定所述多个拍摄位置。

4.根据权利要求1所述的方法，所述根据所述视频，获取多个拍摄位置还包括：

根据所述视频和所述移动设备的运动传感器，获取所述多个拍摄位置。

5.根据权利要求1所述的方法，还包括：

根据所述视频，构建目标空间的VR场景；

根据所述VR场景，确定多个测试位置；

通过引导用户将所述移动设备移动至所述多个测试位置，获取所述多个拍摄位置。

6.一种音响参数确定系统，所述系统包括：

第一获取模块，用于通过移动设备的摄像头和麦克风，获取目标音响所在目标空间的视频和音频；

第二获取模块，用于根据所述视频，获取多个拍摄位置；

确定模块，用于根据所述多个拍摄位置和所述音频，确定所述目标音响的参数。

7.一种音响参数确定装置，所述装置包括：

至少一个包括一组指令的存储设备；以及

至少一个被配置为与所述至少一个存储设备通信的处理器，其中，当执行所述指令时，所述至少一个处理器被配置为指示所述装置执行操作，包括：

根据所述视频，获取多个拍摄位置；

8.一种非暂时性计算机可读介质，包括可执行指令，当由至少一个处理器执行时，所述可执行指令指示所述至少一个处理器执行一种方法，所述方法包括：

根据所述视频，获取多个拍摄位置；