CN114734942A - 调节车载音响音效的方法及装置 - Google Patents

调节车载音响音效的方法及装置 Download PDF

Info

Publication number
CN114734942A
CN114734942A CN202210347453.6A CN202210347453A CN114734942A CN 114734942 A CN114734942 A CN 114734942A CN 202210347453 A CN202210347453 A CN 202210347453A CN 114734942 A CN114734942 A CN 114734942A
Authority
CN
China
Prior art keywords
passenger
song
vehicle
determining
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210347453.6A
Other languages
English (en)
Inventor
朱长宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Horizon Robotics Science and Technology Co Ltd
Original Assignee
Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Horizon Robotics Science and Technology Co Ltd filed Critical Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority to CN202210347453.6A priority Critical patent/CN114734942A/zh
Publication of CN114734942A publication Critical patent/CN114734942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/201User input interfaces for electrophonic musical instruments for movement interpretation, i.e. capturing and recognizing a gesture or a specific kind of movement, e.g. to control a musical instrument
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

公开了一种调节车载音响音效的方法及装置。通过获取唱歌的乘员在车内的位置,可以确定车内音效中心的位置,并根据车内音效中心的位置调整车内各音响播放歌曲的音效,以使唱歌的乘员处于最接近音效中心的位置,有利于用户产生沉浸式的唱歌体验。

Description

调节车载音响音效的方法及装置
技术领域
本公开涉及车辆技术领域,尤其涉及一种调节车载音响音效的方法及装置。
背景技术
随着驾乘娱乐性的需求日益增多,车载多媒体的主体功能也越来越多元化,娱乐功能已成为人们选购汽车的重要参考之一,“车载K歌”作为一种能丰富人们精神生活的娱乐功能,受到了人们广泛的欢迎。“车载K歌”即用户可以在车内唱歌,车内设置有用于收音的麦克风,麦克风接收用户唱歌的声音后,将音频信号转换成电信号传至音响,音响将接收到的电信号重新转换成音频信号,经过放大、修音等一系列处理后播放。
相关技术中,车内通常分布有多个音响,针对不同座位的乘员,各音响通过对声音效果的特殊优化(如通过频响、相位、延时等)从而形成不同的音效模式,如驾驶员模式、前排模式、后排模式、全车模式等等。每个音效模式都会使相应的乘员听到的音效达到最优,同时可能会降低其他位置的音效。
但是,对于传统的车载音响而言,用户只能手动调整不同的音效模式,且该模式一旦设定,其他座位的乘员听到的音效将变差,不利于用户体验。
发明内容
本公开的实施例提供了一种调节车载音响音效的方法及装置,以解决现有技术中用户只能手动调整不同的音效模式,且该模式一旦设定,其他座位的乘员听到的音效将变差的问题。具体地,本公开实施例提供如下技术方案:
根据本公开的一个方面,提供了一种调节车载音响音效的方法,包括:
获取播放歌曲的歌曲信息;
确定第一位置,所述第一位置是目标乘员在车内的位置,所述目标乘员是在车内唱歌的乘员;
根据所述第一位置,确定第二位置,所述第二位置是车内音效中心的位置;
根据所述第二位置,调整车内各音响播放所述歌曲的音效。
根据本公开的第二方面,提供了一种调节车载音响音效的装置,包括:
歌曲获取模块:用于获取播放歌曲的歌曲信息;
第一位置确定模块:用于确定第一位置,所述第一位置是目标乘员在车内的位置,所述目标乘员是有演唱行为的乘员;
第二位置确定模块:用于根据由所述第一位置确定模块获取的所述第一位置,确定第二位置,所述第二位置是车内待调整至音效中心的位置;
音效调整模块:用于根据所述第二位置确定模块获取的所述第二位置,调整车内各音响播放所述歌曲的音效。
根据本公开的第三方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的调节车载音响音效的方法。
根据本公开的第四方面,提供了一种电子设备,所述电子设备包括
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的调节车载音响音效的方法。
本公开提供的一种调节车载音响音效的方法、装置、计算机可读存储介质及电子设备,通过获取车内演唱者的位置,确定车内音效中心的位置,并根据车内音效中心的位置调整车内各音响播放歌曲的音效,有利于用户产生沉浸式的唱歌体验。
附图说明
通过结合附图对本公开实施例进行更详细的表征,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的一种调节车载音响音效的系统图。
图2是本公开一示例性实施例提供的调节车载音响音效的方法的流程示意图。
图3是本公开一示例性实施例提供的确定第一位置的流程示意图。
图4是本公开所适用的一种车内场景的示意图。
图5是本公开一示例性实施例提供的确定目标乘员的流程示意图。
图6是本公开一示例性实施例提供的确定第一位置的流程示意图。
图7是本公开一示例性实施例提供的确定第二位置的流程示意图。
图8是本公开一示例性实施例提供的确定第二位置的流程示意图。
图9是本公开一示例性实施例提供的调整车内各音响播放所述歌曲的音效的流程示意图。
图10是本公开一示例性实施例提供的调整车内各音响播放所述歌曲的音效的流程示意图。
图11是本公开一示例性实施例提供调节车载音响音效的装置的结构示意图。
图12为本公开一示例性实施例提供的第一位置确定模块的结构示意图。
图13是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地表征根据本公开的示例实施例。显然,所表征的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里表征的示例实施例的限制。
公开概述
车载音响是车内必备的娱乐设施,仅仅通过车载音响播放音乐、广播或电台节目已经无法满足人们对驾乘娱乐性的需求,且随着“K歌文化”的兴起,汽车用户开始有了在车内“K歌”的需求,因此,“车载K歌”作为一种能丰富车内驾乘人员精神生活的娱乐功能,受到了人们广泛的欢迎。“车载K歌”即用户可以在车内唱歌,车内设置有用于收音的麦克风,麦克风接收用户唱歌的声音后,将音频信号转换成电信号传至音响,音响将接收到的电信号重新转换成音频信号,经过放大、修音等一系列处理后播放。
相关技术中,为了提高演唱人员的体验感,提出了在车内设置多个音响,并根据车内各座位的分布,预先设置好对应于各座位的音效模式,例如,当驾驶员在唱歌时,车内乘员可以选择令音响进入驾驶员模式,以使驾驶员听到的音效达到最优,或者,当后座乘员在唱歌时,车内乘员可以选择令音响进入后排模式,以使后座乘员听到的音效达到最优。
但是,上述令音响进入对应的模式都需要用户主动对音响的模式进行切换,且在车内的乘员进行对唱或合唱某一首歌曲的场景下,若想使参与对唱或合唱的所有乘员都有较好的音效体验,则需频繁对音响的模式进行主动切换,不利于用户体验。
基于上述技术问题,本公开提供了一种调节车载音响音效的方法、装置、计算机可读存储介质及电子设备,通过获取车内演唱者的位置,确定车内音效中心的位置,并根据车内音效中心的位置调整车内各音响播放歌曲的音效,有利于用户产生沉浸式的唱歌体验。
示例性系统
参见图1,为本公开实施例提供的一种特定场景的系统结构示意图。所述场景可以包括一设置有“车载K歌”系统的车辆。该车辆例如可以是汽车,除此之外还可以适用于其他类型的机动车或非机动车,“车载K歌”系统可以包括:检测器、控制器和播放器。检测器和播放器分别于控制器连接,以实现检测器与控制器之间、控制器与播放器之间信号的交互。
其中,检测器用于采集外部环境或与外部交互的信号。例如,检测器可以包括图像采集器,如摄像头,可以用于采集车内环境场景、用户的属性或用户交互行为,或者,检测器可以包括声音采集器,如麦克风或麦克风阵列,用于采集车内的声音,再或者,检测器可以包括温度传感器,用于采集车内各位置的环境温度。
控制器用于依照具体车型和硬件搭载环境定制实现不同功能,同时还能实现较为复杂的软件功能逻辑,支持并执行多数的开发平台的应用程序,例如,“车载K歌”应用程序,在控制器控制运行“车载K歌”应用程序,通过对检测器输入的信号进行处理,可以为用户带来沉浸式的K歌体验。控制器可以包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM Random AccessMemory,RAM),ROM(Read-OnlyMemory,ROM),用于输入 /输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
播放器用于解析控制器输入的音频信号和/或视频信号,并播放对应的视频/音频,例如,播放器可以是视频播放器,视频播放器通常包括显示屏和内置的扬声器,当接收到控制器发送的视频信号和与该视频信号相匹配的音频信号时,可以对视频信号和音频信号进行解析,以在显示屏中播放对应的视频画面,并通过扬声器播放与视频画面同步的音频,或者,播放器也可以是音频播放器,音频播放器内置有扬声器,当接收到控制器发送的音频信号时,可以对音频信号进行解析,以通过扬声器播放对应的音频,其中,播放器播放的音频可以是从大数据中获取的音频,例如,从歌曲库中获取的歌曲音频,通过联网获取的电台音频等,也可以是通过声音采集器获取的音频,例如,声音采集器采集到的车内乘员在唱歌时的声音。
在一种示例性实施例中,所述图像采集器用于采集车内的环境图像,所述声音采集器用于采集车内演唱者的声音,所述控制器用于根据车内的环境图像确定车内的演唱者的位置,并根据演唱者的位置对输入控制器的音频的音效进行调整,生成对应于各播放器的音频信号,将各音频信号输入至对应的播放器中,以使各播放器播放具有不同音效的音频,从而使演唱者获得最佳的音效体验。
本实施例提供的技术方案可通过软件、硬件、软硬件结合的任意方式实现。其中,硬件可提供声音和图像的输入,软件则可通过C++程序设计语言、 Java等实现,视频通话功能则可通过基于Python程序设计语音的进行开发、实现,或者还可以通过其他软硬件来实现,本公开对具体实现的硬件、软件结构、功能不做限制。
示例性方法
图2是本公开一示例性实施例提供的调节车载音响音效的方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本公开一示例性实施例提供的调节车载音响音效的方法至少包括如下步骤:
步骤201,获取播放歌曲的歌曲信息。
其中,当用户启动“车载K歌”功能时,可以选择喜欢的歌曲进行演唱,该歌曲可以是从与车载蓝牙连接的某一乘员的手机中获取的,也可以是从互联网中下载的,或者是从车内存储器中预先存储的歌曲中获取的,当选择好要进行演唱的歌曲后,可以从所述歌曲的源地址获取该歌曲对应的歌曲信息,例如,获取歌曲的音乐旋律信息、歌词信息、音乐风格信息以及音频频率信息等。并根据获取的歌曲信息,播放所述歌曲。
步骤202,确定第一位置。
其中,所述第一位置是目标乘员在车内的位置,目标乘员是在车内唱歌的乘员,目标乘员可以是唯一的1个也可以是多个,例如,当车内仅有驾驶员在唱歌时,目标乘员即为驾驶员,第一位置则是主驾驶的位置,若车内驾驶员和副驾驶位置的乘员在合唱时,即车内驾驶员和副驾驶位置的乘员同时在唱歌时,驾驶员和副驾驶位置上的乘员都为目标乘员,主驾驶和副驾驶的位置则都为第一位置,若车内驾驶员和副驾驶位置的乘员在对唱时,即驾驶员先唱歌,之后副驾驶位置的乘员再进行演唱,驾驶员和副驾驶位置的乘员进行交替演唱时,目标乘员也随着驾驶员和副驾驶位置的乘员的交替演唱而发生变化,相应的,第一位置也在主驾驶位置和副驾驶位置间来回切换。
步骤203,根据所述第一位置,确定第二位置。
其中,所述第二位置是车内音效中心的位置,音效即为音响效果,音效中心的位置是音响效果最佳的位置,即距离第二位置(音效中心)越近,车内乘员听到的音响的效果越好,越容易使乘员产生沉浸式的K歌体验,因此,为了增加处在第一位置的目标乘员的K歌体验,可以根据目标乘员所在的第一位置,确定第二位置,第二位置是靠近所述目标乘员的位置。
步骤204,根据所述第二位置,调整车内各音响播放所述歌曲的音效。
其中,通过调整车内各音响播放所述歌曲的音效,以使目标乘员始终处于最靠近音效中心(第二位置)的位置,有利于目标乘员易产生沉浸式的K 歌体验。
在本实施例中,通过获取唱歌的乘员在车内的位置,可以确定车内音效中心的位置,并根据车内音效中心的位置调整车内各音响播放歌曲的音效,以使唱歌的乘员处于最接近音效中心的位置,有利于用户产生沉浸式的唱歌体验。
图3示出了如图2所示的实施例中确定第一位置的流程示意图。
如图3所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,步骤202所示确定第一位置具体可包括如下步骤:
步骤301,获取包括有车内乘员的图像帧序列。
参照图4为本公开提供的一种车内场景的示意图,如图4所示,车内可以设置有摄像头,摄像头可以安装在如图4所示的车内的后视镜周围,也可以设置在车内或车外(车身)的任意位置,只要摄像头所在的位置满足摄像头可以采集到车内每一个座位区域的部分或全部图像即可,摄像头的位置的设置不限制于本公开图4中的示例。摄像头对车内的图像进行采集时,会实时对车内的环境进行录像,得到视频图像,并将得到的视频图像按照拍摄的时间顺序分帧存储,以生成按照拍摄的时间顺序排列的图像帧序列,所述图像帧序列中的每一个图像帧均包括有车内各乘员的人物图像。
步骤302,基于所述图像帧序列,确定车内各乘员的行为信息。
其中,由于图像帧序列是由按照拍摄的时间顺序排列的连续的图像帧组成的,且相邻的两个图像帧之间的时间间隔很小,可以忽略不记,因此,可以根据各图像帧中的人物图像,分析各乘员的姿态变化,以确定车内各乘员的行为信息。
在一实施例中,可以将所述图像帧序列输入至预先训练好的姿态检测模型中,例如,将所述图像帧序列输入至预先训练好的fasterrcnn模型中,faster rcnn模型可以对图像帧序列中的图像帧轮次处理,对每一个图像帧进行人物图像的分割,并对分割后得到的各人物图像进行识别,以获取每个人物图像的关键点信息,其中,人物图像的关键点信息可以包括人物图像的脸部关键点(五官的关键点)、手部关键点、臂部关键点以及躯干关键点等,根据检测到的每个人物图像的关键点信息,可以获取每个乘员在各图像帧中的姿态信息,并将各乘员在各图像帧中的姿态信息进行融合处理,以获取各乘员的姿态变化,从而确定车内各乘员的行为信息。例如,若检测到一段时间内的图像帧中的某一个乘员一直处于闭眼状态,且未发生明显的姿态变化,则可以确定该乘员处于睡眠状态的行为信息,若一段时间内的图像帧中的某个乘员一直处于望向窗外的姿态,则可以确定这个乘员处于发呆状态的行为信息等。
步骤303,根据所述各乘员的行为信息,确定所述目标乘员。
其中,根据一段时间内的图像帧中的各乘员的人物图像,分析各乘员的姿态变换,以确定车内正在唱歌的乘员,并将车内正在唱歌的乘员确定为目标乘员。
在一实施例中,将所述图像帧序列输入至预先训练好的姿态检测模型中,若检测到乘员有唱歌手势的行为信息,例如,检测到乘员的手部持有麦克风或虚拟麦克风,其中,虚拟麦克风可以是如水瓶、笔以及钥匙等有真实形态的物品模拟的麦克风,或者,虚拟麦克风也可以是检测到乘员手持握拳状靠近嘴部周围时模拟的无真实形态的麦克风,当检测到乘员手持有麦克风或虚拟麦克风时,可以确定该乘员有唱歌手势的行为信息,并将该乘员确定为目标乘员。
在一些实施例中,上述姿态检测模型可能会出现对乘员唱歌手势的误判,而将该乘员确定为目标乘员的情况发生,例如,乘员持有带吸管的水杯进行喝水时,摄像头将拍摄到的一组用户正在喝水的图像帧输入至所述姿态检测模型中,姿态检测模型可能会将乘员喝水的动作误判为乘员持有唱歌道具,从而判定该乘员有唱歌手势的行为信息。为了减少该问题的发生,可以对姿态检测模型输出的乘员的行为信息做出进一步判断,例如,设定距离阈值区间和第一时间阈值,当乘员手持唱歌道具到该乘员嘴部关键点的距离处于距离阈值区间和/或该乘员手持唱歌道具的时间超过时间阈值时,判定该乘员有唱歌手势的行为信息,并将该乘员确定为目标乘员。
在一些实施例中,也可以通过姿态检测模型检测乘员在各图像帧中的嘴部关键点的位置,以判定该乘员是否有唇部动作的行为信息,并将有唇部动作的行为信息的乘员确定为目标乘员,例如,姿态检测模型可以检测各乘员在图像帧中的嘴部图像上的嘴部关键点,以绘制各乘员的唇形,并根据若干图像帧中各乘员的唇形变化,判断各乘员是否有唇部动作的行为信息,将有唇部动作的行为信息的乘员确定为目标乘员。
在一些实施例中,上述姿态检测模型可能会出现对乘员唇动检测的误判,而将该乘员确定为目标乘员的情况发生,例如,乘员在打哈欠时,唇部形态也会有变化,姿态检测模型可能会将乘员打哈欠时的唇部形态的变化误判为乘员有唇部动作的行为信息,从而判定该乘员正在唱歌,并将该乘员确定为目标乘员。为了减少该问题的发生,可以对姿态检测模型输出的乘员的行为信息做出进一步判断,例如,设定第二时间阈值,当该乘员有唇部动作的时间超过第二时间阈值时,判定该乘员有唇部动作的行为信息,并将该乘员确定为目标乘员。
在一些实施例中,车内通常设置有车载显示屏,所述车载显示屏可以显示播放的歌曲的歌词信息,车内的乘员进行唱歌时,其视线往往持续的停留在显示屏上,因此,还可以基于各乘员视线朝向显示屏的行为信息,确定目标乘员。
在一些实施例中,为了进一步减少对各乘员行为信息的误判,可以对各乘员同时进行唱歌手势的行为信息、唇部动作的行为信息以及视线朝向行为信息的检测,当乘员同时有唱歌手势的行为信息、唇部动作的行为信息以及视线朝向显示屏的行为信息时,将该乘员确定为目标乘员,其中,对各乘员同时进行唱歌手势的行为信息、唇部动作的行为信息以及视线朝向行为信息的检测可以参照上述实施例中对各乘员分别进行唱歌手势的行为信息、唇部动作的行为信息以及视线朝向行为信息的检测的方法,本公开不再重复赘述。
步骤304,将所述目标乘员在车内的位置确定为所述第一位置。
其中,以传统的四座或五座机动车车内的座位分布为例,共可以分为五个区域,分别为驾驶位区、副驾驶位区、位于驾驶位正后方的第一乘坐位区、位于副驾驶位正后方的第二乘坐位区以及位于第一乘坐位区和第二乘坐位区中间的功能位区。根据摄像头拍摄得到的图像帧序列,可以建立各乘员与车内各座位之间一一对应的映射关系,例如,若某一乘员在超过预设比例阈值数量的图像帧中均位于驾驶位区,且该乘员在驾驶位区的人物图像面积均大于其他乘员在驾驶位区的人物图像面积,则将该乘员与驾驶位建立映射关系。
在一些实施例中,可以选取摄像头拍摄得到的图像帧序列中的任意图像帧,获取所述图像帧中各人物图像在所述摄像头的参考坐标系中的关键点坐标,以及所述图像帧中车内各座位图像在所述摄像头的参考坐标系中的关键点坐标,基于各人物图像的关键点坐标到各座位图像的关键点坐标的距离,可以建立各乘员与车内各座位之间一一对应的映射关系。
根据建立好的各乘员与车内各座位之间一一对应的映射关系,可以获取目标乘员在车内的所处的位置区域,并将目标乘员在车内的所处的位置区域确定为第一位置。
图5示出了如图3所示的实施例中将所述乘员确定为所述目标乘员的流程示意图。
如图5所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,步骤303确定所述目标乘员具体可包括如下步骤:
步骤501,根据所述各乘员的行为信息,获取第一乘员的位置和语音信息。
其中,所述第一乘员是有演唱行为的乘员,有演唱行为的乘员是至少包括有唱歌手势的行为信息和/或唇部动作的行为信息和/或视线朝向显示屏的行为信息的乘员,所述第一乘员的语音信息是所述第一乘员的人声音频,可以根据摄像头采集的图像帧序列,从麦克风阵列采集的车内的混合音频中分离出第一乘员的人声音频。
示例性的,所述混合音频由第一乘员的人声音频和其他声音音频混合而成,所述其他声音音频可以是环境音频和/或至少一个其他乘员的人声音频混合而成。
当混合音频是由第一乘员的人声音频和环境音频混合而成时,可以对所述混合音频进行降噪处理,去除环境音频的影响,以得到第一乘员的纯净的人声音频。
当混合音频是由第一乘员的人声音频、至少一个其他乘员的人声音频以及环境音频混合而成时,可以对所述混合音频进行如下处理:
对所述混合音频进行降噪处理;其中,对所述混合音频进行降噪处理可以去除环境音频的影响,得到由第一乘员的人声音频和至少一个其他乘员的人声音频混合而成的混合人声音频。
获取摄像头在预设时间段内采集的任意一个目标图像帧,以及目标麦克风在所述预设时间段内采集的混合人声音频;其中,目标图像帧中包括第一乘员的人物图像,
基于第一乘员的人物图像在所述目标图像帧中的位置信息,以及摄像头相对于目标麦克风的方位信息,确定第一乘员的位置相对于目标麦克风的第一方位。
增强所述混合人声音频中的所述第一方位的声音信号,并抑制除所述第一方位之外的其他方位的声音信号,以得到所述第一乘员的人声音频,即得到第一乘员的语音信息。
步骤502,获取所述第一乘员的语音信息的文本信息,确定所述文本信息与所述歌曲的歌词信息的相似度。
由于有演唱行为的乘员并不一定是唱歌的乘员,因此需要确定有演唱行为的乘员是否在唱歌,具体的,得到第一乘员的语音信息后,可以基于现有的语音识别技术对第一乘员的语音信息进行分析,例如,基于深度学习中的注意力机制对第一乘员的语音信息进行分析,以获取对应于所述语音信息的文本信息,同时,可以获取播放的歌曲的歌词信息,通过对比所述文本信息与所述歌曲的歌词信息的相似度,以判断有演唱行为的乘员是否是唱歌的乘员。
步骤503,基于所述相似度超过预设阈值,确定所述第一乘员为目标乘员,确定所述第一乘员的位置为第一位置。
在一些实施例中,通过对比对应于第一乘员的所述文本信息与所述歌曲的歌词信息的相似度,若所述相似度超过预设阈值,例如,所述相似度超过 70%,则判定第一乘员为目标乘员,即判定有演唱行为的第一乘员是唱歌的乘员,并基于步各乘员与车内各座位之间一一对应的映射关系,获取第一乘员所在的位置,将第一乘员所在的位置确定为第一位置。
在一些实施例中,第一乘员的语音信息还可以包括声音参数信息,通过对比第一乘员的声音参数信息和播放的歌曲的声音参数信息的相似度,可以判定有演唱行为的第一乘员是否为唱歌的乘员。例如,第一乘员的声音参数信息可以包括音调参数信息,具体的,得到第一乘员的语音信息后,可以获取第一乘员的音调参数信息,通过对比第一乘员的音调参数信息与播放的歌曲的音调参数信息的相似度,若所述相似度超过预设音调相似度阈值,例如,所述相似度超过80%,则判定第一乘员为目标乘员,即判定有演唱行为的第一乘员是唱歌的乘员,并基于各乘员与车内各座位之间一一对应的映射关系,获取第一乘员所在的位置,将第一乘员所在的位置确定为第一位置。
应当理解的是,上述音调参数信息仅为本公开示例性的提供的一种声学参数信息,所述声学参数信息还可以是节奏参数信息或韵律参数信息等,本公开不给予限制。
图6示出了如图2所示的实施例中确定第一位置的流程示意图。
如图6所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,所述歌曲信息包括歌词信息,步骤202所示确定第一位置具体可包括如下步骤:
步骤601,获取车内的人声音频。
其中,可以基于单个麦克风阵列或多个分布式麦克风获取车内的人声音频,且应当理解的是,基于单个麦克风阵列或多个麦克风仅为本公开示例性的提供的用于获取车内的人声音频的方式,麦克风可以是集中式也可以是分布式摆放,在具体实现中,本公开对获取车内的人声音频的方式不予限制。
步骤602:基于所述人声音频,确定车内各乘员的语音信息。
获取车内的人声音频时,由于可能会存在车内多个乘员同时发出声音的情况发生,因此需要对获取的人声音频进行人声分离,以获取各乘员对应的单人音频。
在一些实施例中,可以基于现有的语音分离技术对车内的人声音频进行语音分离,获取各个位置乘员的语音数据。例如,可以通过IVA、ICA算法等对所述人声音频进行语音分离,也可以通过MVDR、GSC等波束形成算法对所述人声音频进行语音分离,本公开对所述人声音频进行语音分离的方式不予限制。
步骤603,获取所述各乘员的语音信息的文本信息,确定所述文本信息与所述歌词信息的相似度。
步骤604,基于所述相似度超过预设阈值,确定所述乘员为目标乘员,确定所述乘员的位置为第一位置。
图7示出了如图2所示的实施例中确定第二位置的流程示意图。
如图7所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,步骤203所示确定第二位置具体可包括如下步骤:
步骤701:确定所述目标人员的数量。
在一些实施例中,车内唱歌的乘员数量可以为1个,也可以为多个,基于对麦克风采集到的声音进行人声分离,可以得到对应于每个发声的乘员的单人音频,基于对各单人音频进行语音识别可以筛选出属于唱歌类别的单人音频,其中,属于唱歌类别的单人音频的数量等于唱歌的乘员的数量,即目标人员的数量。
步骤702:基于所述目标乘员的数量为1个,将所述第一位置确定为第二位置。
其中,目标乘员的数量为1个时可以有两种场景,其中一个场景是车内仅有一个乘员在唱歌,则在该时间段内进行唱歌的乘员即为目标乘员;另一个场景是车内至少有两个乘员在唱歌,但是,唱歌的乘员是轮次演唱的,即同一个时间段内仅有1个乘员在唱歌,例如,车内的A乘员、B乘员和C 乘员都是唱歌的乘员,但是,A乘员仅在0~15s内唱歌,B乘员仅在15s~20s 唱歌,C乘员仅在25s~32s唱歌,A乘员、B乘员和C乘员轮次演唱,在这种场景下,0~15s内A乘员为目标乘员,15s~20s内B乘员为目标乘员,25s~32s 内C乘员为目标乘员,目标乘员是处于动态变化的,但是目标乘员的数量始终为1个,同时,第二位置也是随目标乘员的变化而变化,但是第二位置(音效中心的位置)的数量也始终为1个。
步骤703:将所述第一位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
其中,当目标乘员的数量为1个时,应尽量保证目标乘员听到的音效为最佳音效,因此,可以将目标乘员所处的第一位置确定为车内音效中心位置,并调整车内各音响播放所述歌曲的音效,以使目标乘员获得最佳的音效体验。
图8示出了如图2所示的实施例中确定第二位置的流程示意图。
如图8所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,步骤203所示确定第二位置具体可包括如下步骤:
步骤801,确定所述目标人员的数量。
步骤802,基于所述目标乘员的数量至少为2个,根据所述各目标乘员的第一位置,将与各目标乘员的第一位置之间的距离均相等的位置确定为第二位置。
其中,目标乘员的数量至少为2个,即为在同一时间段有至少2个乘员在唱歌(合唱),例如,位于驾驶位的乘员和位于副驾驶位的乘员在合唱时,位于驾驶位的乘员和位于副驾驶位的乘员均为目标乘员,对应的,驾驶位和副驾驶为也均为第一位置,为了使位于驾驶位的乘员和位于副驾驶位的乘员都获得较好的音效体验,可以将音效中心的位置(第二位置)设置在驾驶位和副驾驶位之间,且第二位置距离驾驶位和副驾驶位的距离均相等。
步骤803,将所述第二位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
图9示出了如图2所示的实施例中调整车内各音响播放所述歌曲的音效的流程示意图。
如图9所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,步骤204所示调整车内各音响播放所述歌曲的音效具体可包括如下步骤:
步骤901,基于所述歌词信息,确定所述歌曲的演唱模式的切换点,将所述切换点前的第二位置作为第三位置,将所述切换点后的第二位置作为第四位置。
其中,根据歌曲的歌词信息,可以确定歌曲的演唱模式,歌曲的演唱模式分为独唱模式、合唱模式和对唱模式。
在一些实施例中,当确定歌曲的演唱模式为独唱模式时,可以预先估计演唱该歌曲的目标人物的数量为1个,通过在歌曲的前奏阶段检测有演唱行为的乘员的位置,可以预先将有演唱行为的其中一个乘员的位置调整为音效中心的位置,即第二位置。之后,若检测到车内有乘员开始演唱时,对麦克风采集的音频进行人声分离,并根据进行人声分离后的音频进一步判断在歌曲的前奏阶段有演唱行为的乘员是否为此时正在唱歌的乘员,若是,则保持将该乘员所在的位置确定为第二位置,若否,则获取正在唱歌的乘员的位置,并将正在唱歌的乘员的位置确定为第二位置。
在一些实施例中,当确定歌曲的演唱模式为合唱模式时,可以预先估计演唱该歌曲的目标人物的数量为至少2个,通过在歌曲的前奏阶段检测有演唱行为的乘员的位置,可以预先根据所有有演唱行为的乘员的位置确定第二位置,其中,第二位置到各有演唱行为的乘员的位置的距离均相等。之后,若检测到车内有乘员开始演唱时,对麦克风采集的音频进行人声分离,并根据进行人声分离后的音频进一步判断在歌曲的前奏阶段有演唱行为的乘员是否全部为此时正在唱歌的乘员,若是,则保持将距离各有演唱行为的乘员的位置均相等的位置确定为第二位置,若否,则获取正在唱歌的所有乘员的位置,并根据获取到的正在唱歌的所有乘员的位置,重新确定第二位置,以使第二位置到各正在唱歌的乘员的位置的距离均相等。
在一些实施例中,当确定歌曲的演唱模式为对唱模式时,可以根据歌曲的歌词信息进一步估计演唱该歌曲的目标人物的数量、性别以及对唱的切换点,例如,可以根据歌曲的歌词信息得到所述歌曲是通过男女对唱完成的,且为男性先唱,女性后唱,男性演唱的时间段为该歌曲的10~30s,女性演唱的时间段为该歌曲的40s~50s,其余时间可以是原声伴奏,因此,可以得到对唱的切换点就是男性演唱结束的时间点,即对唱的切换点是该歌曲播放到 30s的时间点。因此,可以估计演唱该歌曲的目标乘员的数量为2个,且演唱该歌曲的乘员为一男一女。通过在歌曲的前奏阶段检测有演唱行为的乘员的位置,可以预先将有演唱行为的任意一个男性乘员的位置确定为第二位置。之后,若检测到车内有乘员开始演唱时,对麦克风采集的音频进行人声分离,并根据进行人声分离后的音频进一步判断所述有演唱行为的男性乘员是否为此时唯一正在唱歌的乘员,若是,则保持将该乘员所在的位置确定为第二位置,若否,则获取正在唱歌的乘员的位置,并根据正在唱歌的乘员的位置确定第二位置。
并且,当歌曲到达切换点时,可以再次检测有演唱行为的乘员的位置,并预先将有演唱行为的任意一个女性乘员的位置确定为第二位置。之后,若检测到车内有乘员开始演唱时,对麦克风采集的音频进行人声分离,并根据进行人声分离后的音频进一步判断所述有演唱行为的女性乘员是否为此时唯一正在唱歌的乘员,若是,则保持将该乘员所在的位置确定为第二位置,若否,则获取正在唱歌的乘员的位置,并根据正在唱歌的乘员的位置确定第二位置。
步骤902,基于所述歌曲播放至所述切换点,将音效中心由所述第三位置切换至所述第四位置。
在一些实施例中,可以将在切换点前根据唱歌的乘员的位置确定的第二位置作为第三位置,将切换点后根据唱歌的乘员的位置确定的第二位置作为第四位置,即到达切换点时,可以将音效中心的位置(第二位置)由第三位置切换至第四位置。
步骤903,调整车内各音响播放所述歌曲的音效,以将更新后的所述第四位置调整为车内音效中心的位置。
图10示出了如图2所示的实施例中调整车内各音响播放所述歌曲的音效的流程示意图。
如图10所示,在上述图2所示实施例的基础上,本公开一个示例性实施例中,所述歌曲信息包括所述歌曲的音频频率,步骤204所示调整车内各音响播放所述歌曲的音效具体可包括如下步骤:
步骤101,获取所述目标乘员的人声音频,确定所述人声音频的音调。
其中,目标乘员的人声音频是通过麦克风采集并进行人声分离后得到的,可以将所述人声音频以音节为单位进行划分,并得到所述人声音频中的每一个音节的音调,以及,将目标乘员的人声音频转换为语言文本,建立语言文本中各字节与人声音频中各音节之间的对应关系。
步骤102,根据所述歌曲的乐谱信息,确定所述歌曲的音调。
其中,歌曲的乐谱信息可以包括所有标准音符、每个标准音符的起止时间、每个标准音符的音高值、歌曲的歌词文本、歌词文本中每个字节的起止时间和歌词文本中的各字节与各标准音符的对应关系。
步骤103,根据所述歌曲的音调调整所述人声音频的音调,以及调整车内各音响播放所述歌曲的音效。
在一些实施例中,可以将语言文本和歌词文本做对比,获取歌词文本中与所述语言文本相似度最高的文本片段,并建立语言文本中各字节与文本片段中各字节的对应关系,根据文本片段对应的乐谱信息对语言文本中各字节对应的音节进行逐节调整,以完成对所述人声音频的音调的调整。
例如,获取到人声音频对应的语言文本为“我是一只猫”,按字节对所述语言文本进行划分,即可得到“我/是/一/只/猫”,对人声音频以音节为单位进行划分可以得到“wo/shi/yi/zhi/mao”,通过对每一个音节进行识别,用数字表征所述人声音频中的每一个音节对应的音调为“1/3/2/4/5”,并建立语言文本中“我/是/一/只/猫”与人声音频中各音节“wo/shi/yi/zhi/mao”及其对应的音调“1/3/2/4/5”之间的对应关系,可以表示为“我-wo-1”、“是 -shi-3”、“一-yi-2”、“只-zhi-4”以及“猫-mao-5”。并将语言文本“我是一只猫”与歌词文本做对比,得到歌词文本中的“我是一只猫”的文本片段,建立所述文本片段中各字节与标准音符之间的对应关系“我-wo-2”、“是-shi-1”、“一-yi-3”、“只-zhi-4”以及“猫-mao-5”,由此可见,根据人声音频得到的“我-wo-1”、“是-shi-3”、“一-yi-2”与根据文本片段和标准音符得到的“我-wo-2”、“是-shi-1”、“一-yi-3”不一致,因此,可以将人声音频中的“wo”“shi”“yi”这三个音节的音调由“1”“3”“2”调整至“2”“1”“3”。
应当理解的是,上述实施例仅示例性的说明了对人声音频的音调的调整方法,除此之外,还可以根据乐谱信息包括的所有标准音符、每个标准音符的起止时间、每个标准音符的音高值、歌曲的歌词文本、歌词文本中每个字节的起止时间和歌词文本中的各字节与各标准音符的对应关系调整人声音频中各音节的其他音乐参数,例如,调整人声音频中每个音节的发音时长,对每个音节进行加混响、人声增强、降噪以及声反馈消除等操作,本公开不给予限制。
在一些实施例中,由于各音响到第二位置之间的距离均不相同,因此,目标乘员听到各音响传到耳边的声音也略有不同,距离目标乘员近的音响发出的声音会先传到目标乘员的耳中,距离目标乘员远的音响发出的声音会后传到目标乘员的耳中,导致目标乘员会听到具有不同播放进度的歌曲的音频,影响目标乘员的唱歌体验。
因此,在前述各实施例中,调整车内各音响播放所述歌曲的音效,还可以包括根据第二位置与车内各音响之间的距离,调整各音响的播放延迟,以使各音响播放的声音同时到达所述第二位置,从而使目标用户获得较好的音效体验。
在一些实施例中,若目标乘员唱歌时声音的强度比播放的歌曲的声音强度大时,可能会导致目标乘员无法听清播放的歌曲的音频,从而影响目标乘员的唱歌体验。
因此,在前述各实施例中,调整车内各音响播放所述歌曲的音效,还可以包括根据第二位置与车内各音响之间的距离,调整各音响的播放强度,以使第二位置是车内音效强度最大的位置,并且,第二位置的音效强度应大于阈值,从而使目标用户获得较好的音效体验。
在前述各实施例中,调整车内各音响播放歌曲的音效,还可以包括根据所述歌曲的音乐类型,调整车内所述各音响的播放延迟和/或播放音量,从而使目标用户获得较好的音效体验。
其中,歌曲的音乐类型可以包括摇滚、民谣以及人声等,音乐类型为摇滚的歌曲往往是快节奏的,而音乐类型为民谣或人声的歌曲往往是慢节奏的,当歌曲节奏较快时,为了使目标乘员更好的跟上节奏,可以通过减少各音响的延迟,使得歌曲的音频更快的传达到用户的耳中;当歌曲节奏较慢时,为了使目标乘员更好的跟上节奏,可以通过增加各音响的延迟,使得歌曲的音频较慢的传达到用户的耳中。如果歌曲的音乐类型为人声类型,为了突出演唱人声类型歌曲的目标乘员的声音,可以调节目标乘员的人声频带,例如,适当降低人声中低频的频带,增加人声中中频的频带,以突出目标乘员的声音,从而使目标用户获得较好的音效体验。
其中,各音响还可以连接音频均衡器,音频均衡器可以依据特定的程序检测播放的歌曲的音乐类型,并可以根据所述歌曲的音乐类型自动调节人声音频的高中低各频段声音增益,从而使目标用户获得较好的音效体验。
在上述各实施例中,调整车内各音响播放歌曲的音效,还可以包括根据摄像头采集的图片帧序列,获取目标乘员的情绪信息,根据目标乘员的情绪信息,在播放的歌曲中混入用于缓解目标乘员的情绪的音乐,从而使目标用户获得较好的音效体验。
其中,可以将摄像头采集的图片帧序列输入至用于检测人脸关键点的神经网络模型中,所述神经网络模型可以基于检测到的各图片帧中目标乘员的脸部关键点坐标,获取目标乘员的脸部姿态/脸部姿态变化,从而判断目标乘员的情绪,例如,若目标乘员始终有微笑的脸部姿态,则判定目标乘员的情绪为愉悦,若目标乘员始终有皱眉的脸部姿态,则判定目标乘员的情绪为抑郁等。当检测到目标乘员有负面的情绪时,可以在播放的歌曲中混入用于缓解目标乘员的情绪的音乐,例如,可以在播放的歌曲中混入具有“大脑调谐频率”的音乐,大脑调谐频率”的音乐是一种鼓励专注力、提高效率以及缓解压力的处于特定频率的音乐,可以改善用户负面的情,从而使目标用户获得较好的音效体验。
综上所述,本公开公开了一种调节车载音响音效的方法。通过获取唱歌的乘员在车内的位置,可以确定车内音效中心的位置,并根据车内音效中心的位置调整车内各音响播放歌曲的音效,以使唱歌的乘员始终处于最接近音效中心的位置,有利于用户产生沉浸式的唱歌体验。
示例性装置
参见图11,为本公开实施例提供的一种调节车载音响音效的装置的结构示意图,该装置用于实现前述方法实施例的全部或部分功能。具体地,所述调节车载音响音效的装置包括歌曲获取模块、第一位置确定模块、第二位置确定模块以及音效调整模块等。此外,该装置还可以包括其他更多模块,比如存储模块、发送模块等,本实施例对此不予限制。
具体的,歌曲获取模块用于获取播放歌曲的歌曲信息;
第一位置确定模块,用于确定第一位置,
其中,所述第一位置是目标乘员在车内的位置,所述目标乘员是有演唱行为的乘员;
第二位置确定模块,用于根据由所述第一位置确定模块获取的所述第一位置,确定第二位置。
其中,所述第二位置是车内待调整至音效中心的位置;
音效调整模块,用于根据所述第二位置确定模块获取的所述第二位置,调整车内各音响播放所述歌曲的音效。
图12为本公开一示例性实施例提供的第一位置确定模块的结构示意图,如图12所示,第一位置确定模块还包括图像检测模块、声音采集模块和处理模块,所述图像检测模块用于获取包括有车内乘员的图像帧序列,所述声音采集模块用于采集车内的人声音频,所述处理模块用于根据图像检测模块获取的图像帧序列和声音采集模块采集的车内的人声音频,确定车内各乘员的行为信息,并根据各乘员的行为信息,确定目标乘员和目标乘员在车内的第一位置。
可选的,在本实施例的一种实现方式中,所述确定第一位置,包括:
获取包括有车内乘员的图像帧序列;基于所述图像帧序列,确定车内各乘员的行为信息;根据所述各乘员的行为信息,确定所述目标乘员;将所述目标乘员在车内的位置确定为所述第一位置。
可选的,在本实施例的一种实现方式中,所述根据各所述乘员的行为信息,确定所述目标乘员,包括:
基于所述行为信息包括唱歌手势,将所述乘员确定为所述目标乘员。
可选的,在本实施例的一种实现方式中,所述根据各所述乘员的行为信息,确定所述目标乘员,包括:
基于所述行为信息包括唇部动作,将所述乘员确定为所述目标乘员。
可选的,在本实施例的一种实现方式中,所述将所述乘员确定为所述目标乘员,包括:
根据所述各乘员的行为信息,获取第一乘员的位置和语音信息,其中,所述第一乘员是有演唱行为的乘员,所述第一乘员的语音信息是所述第一乘员的人声音频;获取所述第一乘员的语音信息的文本信息,确定所述文本信息与所述歌曲信息的歌词文本的相似度;基于所述相似度超过预设阈值,确定所述第一乘员为目标乘员,确定所述第一乘员的位置为第一位置。
可选的,在本实施例的一种实现方式中,所述歌曲信息包括歌词信息,所述确定第一位置,包括:获取车内的人声音频,基于所述人声音频,确定车内各乘员的语音信息;获取所述各乘员的语音信息的文本信息,确定所述文本信息与所述歌词信息的相似度;基于所述相似度超过预设阈值,确定所述乘员为目标乘员,确定所述乘员的位置为第一位置。
可选的,在本实施例的一种实现方式中,所述根据所述第一位置,确定第二位置,包括:
确定所述目标人员的数量;基于所述目标乘员的数量为1个,将所述第一位置确定为第二位置;
所述根据所述第二位置,调整车内各音响播放所述歌曲的音效,包括:
将所述第一位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
可选的,在本实施例的一种实现方式中,所述根据所述第一位置,确定第二位置,包括:
确定所述目标人员的数量;基于所述目标乘员的数量至少为2个,根据所述各目标乘员的第一位置,将与各目标乘员的第一位置之间的距离均相等的位置确定为第二位置;
所述根据所述第二位置,调整车内各音响播放所述歌曲的音效,包括:
将所述第二位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
可选的,在本实施例的一种实现方式中,调整车内各音响播放所述歌曲的音效,还包括:
根据所述第二位置与车内各音响之间的距离,调整所述各音响的播放延迟,以使所述各音响播放的声音同时到达所述第二位置。
可选的,在本实施例的一种实现方式中,调整车内各音响播放所述歌曲的音效,还包括:
根据所述第二位置与车内各音响之间的距离,调整所述各音响的播放强度,以使所述第二位置是车内音效强度最大的位置。
可选的,在本实施例的一种实现方式中,所述歌曲信息包括所述歌曲的歌词信息,所述调整车内各音响播放所述歌曲的音效,还包括:
基于所述歌词信息,确定所述歌曲的演唱模式的切换点,将所述切换点前的第二位置作为第三位置,将所述切换点后的第二位置作为第四位置;基于所述歌曲播放至所述切换点,将音效中心由所述第三位置切换至所述第四位置;调整车内各音响播放所述歌曲的音效,以将更新后的所述第四位置调整为车内音效中心的位置。
可选的,在本实施例的一种实现方式中,所述歌曲信息包括所述歌曲的音频频率,所述调整车内各音响播放所述歌曲的音效,还包括:
根据所述歌曲的音乐类型,调整车内所述各音响的播放延迟和/或播放音量。
可选的,在本实施例的一种实现方式中,所述调整车内各音响播放所述歌曲的音效,还包括:
获取所述目标乘员的人声音频,确定所述人声音频的音调;根据所述歌曲的乐谱信息,确定所述歌曲的音调;根据所述歌曲的音调调整所述人声音频的音调,以及调整车内各音响播放所述歌曲的音效。
另外,本装置实施例中,如图11所示的各个模块的功能与前述如图2 所示的方法实施例对应,比如,歌曲获取模块用于执行前述方法步骤201, 或者第一位置确定模块用于执行前述方法步骤202、第二位置确定模块用于 执行前述方法步骤203、音效调整模块用于执行前述方法步骤204等。
示例性电子设备
下面,参考图13来表征根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图13图示了根据本公开实施例的电子设备的框图。
如图13所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的调节车载音响音效的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置13 可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备 100和第二设备200接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图13中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中表征的根据本公开各种实施例的调节车载音响音效的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中表征的根据本公开各种实施例的调节车载音响音效的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例表征了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上表征以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和表征的目的已经给出了以上表征。此外,此表征不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种调节车载音响音效的方法,包括:
获取播放歌曲的歌曲信息;
确定第一位置,所述第一位置是目标乘员在车内的位置,所述目标乘员是在车内唱歌的乘员;
根据所述第一位置,确定第二位置,所述第二位置是车内音效中心的位置;
根据所述第二位置,调整车内各音响播放所述歌曲的音效。
2.根据权利要求1所述的方法,其中,所述确定第一位置,包括:
获取包括有车内乘员的图像帧序列;
基于所述图像帧序列,确定车内各乘员的行为信息;
根据所述各乘员的行为信息,确定所述目标乘员;
将所述目标乘员在车内的位置确定为所述第一位置。
3.根据权利要求2所述的方法,其中,所述根据所述各乘员的行为信息,确定所述目标乘员,包括:
基于所述行为信息包括唱歌手势,将所述乘员确定为所述目标乘员。
4.根据权利要求2或3所述的方法,其中,所述根据各所述乘员的行为信息,确定所述目标乘员,包括:
基于所述行为信息包括唇部动作,将所述乘员确定为所述目标乘员。
5.根据权利要求4所述的方法,其中,所述将所述乘员确定为所述目标乘员,还包括:
根据所述各乘员的行为信息,获取第一乘员的位置和语音信息,其中,所述第一乘员是有演唱行为的乘员,所述第一乘员的语音信息是所述第一乘员的人声音频;
获取所述第一乘员的语音信息的文本信息,确定所述文本信息与所述歌曲的歌词信息的相似度;
基于所述相似度超过预设阈值,确定所述第一乘员为目标乘员,确定所述第一乘员的位置为第一位置。
6.根据权利要求1所述的方法,其中,所述歌曲信息包括歌词信息,所述确定第一位置,包括:
获取车内的人声音频;
基于所述人声音频,确定车内各乘员的语音信息;
获取所述各乘员的语音信息的文本信息,确定所述文本信息与所述歌词信息的相似度;
基于所述相似度超过预设阈值,确定所述乘员为目标乘员,确定所述乘员的位置为第一位置。
7.根据权利要求1所述的方法,其中,所述根据所述第一位置,确定第二位置,包括:
确定所述目标人员的数量;
基于所述目标乘员的数量为1个,将所述第一位置确定为第二位置;
所述根据所述第二位置,调整车内各音响播放所述歌曲的音效,包括:
将所述第一位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
8.根据权利要求1所述的方法,其中,所述根据所述第一位置,确定第二位置,包括:
确定所述目标人员的数量;
基于所述目标乘员的数量至少为2个,根据所述各目标乘员的第一位置,将与各目标乘员的第一位置之间的距离均相等的位置确定为第二位置;
所述根据所述第二位置,调整车内各音响播放所述歌曲的音效,包括:
将所述第二位置确定为车内音效中心位置,调整车内各音响播放所述歌曲的音效。
9.根据权利要求1所述的方法,其中,调整车内各音响播放所述歌曲的音效,还包括:
根据所述第二位置与车内各音响之间的距离,调整所述各音响的播放延迟,以使所述各音响播放的声音同时到达所述第二位置。
10.根据权利要求1所述的方法,其中,调整车内各音响播放所述歌曲的音效,还包括:
根据所述第二位置与车内各音响之间的距离,调整所述各音响的播放强度,以使所述第二位置是车内音效强度最大的位置。
11.根据权利要求1所述的方法,其中,所述歌曲信息包括所述歌曲的歌词信息,所述调整车内各音响播放所述歌曲的音效,还包括:
基于所述歌词信息,确定所述歌曲的演唱模式的切换点,将所述切换点前的第二位置作为第三位置,将所述切换点后的第二位置作为第四位置;
基于所述歌曲播放至所述切换点,将音效中心由所述第三位置切换至所述第四位置;
调整车内各音响播放所述歌曲的音效,以将更新后的所述第四位置调整为车内音效中心的位置。
12.根据权利要求1所述的方法,其中,所述歌曲信息包括所述歌曲的音频频率,所述调整车内各音响播放所述歌曲的音效,还包括:
根据所述歌曲的音乐类型,调整车内所述各音响的播放延迟和/或播放音量。
13.根据权利要求12所述的方法,其中,所述调整车内各音响播放所述歌曲的音效,还包括:
获取所述目标乘员的人声音频,确定所述人声音频的音调;
根据所述歌曲的乐谱信息,确定所述歌曲的音调;
根据所述歌曲的音调调整所述人声音频的音调,以及调整车内各音响播放所述歌曲的音效。
14.一种调节车载音响音效的装置,包括:
歌曲获取模块:用于获取播放歌曲的歌曲信息;
第一位置确定模块:用于确定第一位置,所述第一位置是目标乘员在车内的位置,所述目标乘员是有演唱行为的乘员;
第二位置确定模块:用于根据由所述第一位置确定模块获取的所述第一位置,确定第二位置,所述第二位置是车内待调整至音效中心的位置;
音效调整模块:用于根据所述第二位置确定模块获取的所述第二位置,调整车内各音响播放所述歌曲的音效。
15.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-13任一所述的调节车载音响音效的方法。
16.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-13任一所述的调节车载音响音效的方法。
CN202210347453.6A 2022-04-01 2022-04-01 调节车载音响音效的方法及装置 Pending CN114734942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210347453.6A CN114734942A (zh) 2022-04-01 2022-04-01 调节车载音响音效的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210347453.6A CN114734942A (zh) 2022-04-01 2022-04-01 调节车载音响音效的方法及装置

Publications (1)

Publication Number Publication Date
CN114734942A true CN114734942A (zh) 2022-07-12

Family

ID=82278643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210347453.6A Pending CN114734942A (zh) 2022-04-01 2022-04-01 调节车载音响音效的方法及装置

Country Status (1)

Country Link
CN (1) CN114734942A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115515057A (zh) * 2022-09-28 2022-12-23 浙江越扬电子有限公司 一种带汽车外置功放的车载均衡器整合系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09261800A (ja) * 1996-03-26 1997-10-03 Nissan Diesel Motor Co Ltd 自動車用音響機器及びその制御方法
US20010038698A1 (en) * 1992-05-05 2001-11-08 Breed David S. Audio reception control arrangement and method for a vehicle
US20050105744A1 (en) * 2003-11-18 2005-05-19 Lee Yong-Hee Method of improving speaker sound quality in vehicle by controlling speaker angle
TW201328915A (zh) * 2012-01-13 2013-07-16 Sound Cheers Ltd 用於車輛之音效調控系統
CN106878281A (zh) * 2017-01-11 2017-06-20 上海蔚来汽车有限公司 基于混合音频的车内定位装置、方法和车内设备控制系统
CN107392094A (zh) * 2017-06-14 2017-11-24 蔚来汽车有限公司 自动调整车载音响音效模式的系统和方法
CN109361996A (zh) * 2018-09-21 2019-02-19 广州小鹏汽车科技有限公司 一种音效自动调节方法、装置及系统
CN109741723A (zh) * 2018-12-29 2019-05-10 广州小鹏汽车科技有限公司 一种卡拉ok音效优化方法及卡拉ok装置
CN110149586A (zh) * 2019-05-23 2019-08-20 贵安新区新特电动汽车工业有限公司 声音调整方法及装置
CN111984818A (zh) * 2019-05-23 2020-11-24 北京地平线机器人技术研发有限公司 跟唱识别方法和装置、存储介质、电子设备
CN113365201A (zh) * 2021-06-07 2021-09-07 湖北亿咖通科技有限公司 一种音响效果调节方法、装置、电子设备及存储介质
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
WO2021217572A1 (zh) * 2020-04-30 2021-11-04 华为技术有限公司 车内用户定位方法、车载交互方法、车载装置及车辆
CN113895385A (zh) * 2021-11-15 2022-01-07 蔚来汽车科技(安徽)有限公司 一种主驾驶音场自动控制方法、系统及设备
CN114125655A (zh) * 2021-11-22 2022-03-01 中国第一汽车股份有限公司 一种扬声器控制方法、装置、电子设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010038698A1 (en) * 1992-05-05 2001-11-08 Breed David S. Audio reception control arrangement and method for a vehicle
JPH09261800A (ja) * 1996-03-26 1997-10-03 Nissan Diesel Motor Co Ltd 自動車用音響機器及びその制御方法
US20050105744A1 (en) * 2003-11-18 2005-05-19 Lee Yong-Hee Method of improving speaker sound quality in vehicle by controlling speaker angle
TW201328915A (zh) * 2012-01-13 2013-07-16 Sound Cheers Ltd 用於車輛之音效調控系統
CN106878281A (zh) * 2017-01-11 2017-06-20 上海蔚来汽车有限公司 基于混合音频的车内定位装置、方法和车内设备控制系统
CN107392094A (zh) * 2017-06-14 2017-11-24 蔚来汽车有限公司 自动调整车载音响音效模式的系统和方法
CN109361996A (zh) * 2018-09-21 2019-02-19 广州小鹏汽车科技有限公司 一种音效自动调节方法、装置及系统
CN109741723A (zh) * 2018-12-29 2019-05-10 广州小鹏汽车科技有限公司 一种卡拉ok音效优化方法及卡拉ok装置
CN110149586A (zh) * 2019-05-23 2019-08-20 贵安新区新特电动汽车工业有限公司 声音调整方法及装置
CN111984818A (zh) * 2019-05-23 2020-11-24 北京地平线机器人技术研发有限公司 跟唱识别方法和装置、存储介质、电子设备
WO2021217572A1 (zh) * 2020-04-30 2021-11-04 华为技术有限公司 车内用户定位方法、车载交互方法、车载装置及车辆
CN113365201A (zh) * 2021-06-07 2021-09-07 湖北亿咖通科技有限公司 一种音响效果调节方法、装置、电子设备及存储介质
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
CN113895385A (zh) * 2021-11-15 2022-01-07 蔚来汽车科技(安徽)有限公司 一种主驾驶音场自动控制方法、系统及设备
CN114125655A (zh) * 2021-11-22 2022-03-01 中国第一汽车股份有限公司 一种扬声器控制方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
竺增宝;刘佩林;: "车载音频系统的自动增益补偿设计", 电子技术应用, vol. 41, no. 5, 6 May 2015 (2015-05-06), pages 35 - 38 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115515057A (zh) * 2022-09-28 2022-12-23 浙江越扬电子有限公司 一种带汽车外置功放的车载均衡器整合系统

Similar Documents

Publication Publication Date Title
EP3496098B1 (en) Generating personalized audio content based on mood
JP6376096B2 (ja) 対話装置及び対話方法
CN108146360A (zh) 车辆控制的方法、装置、车载设备和可读存储介质
EP3955247A1 (en) Modifying operations based on acoustic ambience classification
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
JP2017090612A (ja) 音声認識制御システム
US11410679B2 (en) Electronic device for outputting sound and operating method thereof
CN111261154A (zh) 智能体装置、智能体提示方法及存储介质
CN112805182A (zh) 智能体装置、智能体控制方法及程序
CN112937432A (zh) 车辆发声装置的控制方法、装置、设备及存储介质
CN111007968A (zh) 智能体装置、智能体提示方法及存储介质
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN114734942A (zh) 调节车载音响音效的方法及装置
CN110996163A (zh) 用于自动字幕显示的系统和方法
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质
CN111429882B (zh) 播放语音的方法、装置及电子设备
WO2023040820A1 (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
CN115938340A (zh) 基于车载语音ai的语音数据处理方法及相关设备
CN111627417B (zh) 播放语音的方法、装置及电子设备
JP2010047093A (ja) 音声認識処理装置および音声認識処理方法
WO2024107342A1 (en) Dynamic effects karaoke
CN115938335A (zh) 一种基于车载卡拉ok的交互方法、装置及车载娱乐系统
CN117116236A (zh) 车载音视频处理系统与方法
CN114664294A (zh) 一种音频数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination