CN116489572A - 一种电子设备控制方法、装置及电子设备 - Google Patents

一种电子设备控制方法、装置及电子设备 Download PDF

Info

Publication number
CN116489572A
CN116489572A CN202210042081.6A CN202210042081A CN116489572A CN 116489572 A CN116489572 A CN 116489572A CN 202210042081 A CN202210042081 A CN 202210042081A CN 116489572 A CN116489572 A CN 116489572A
Authority
CN
China
Prior art keywords
coefficient
space
sound field
size
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210042081.6A
Other languages
English (en)
Inventor
孙晨
吕帅林
周小鹏
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210042081.6A priority Critical patent/CN116489572A/zh
Priority to PCT/CN2022/136611 priority patent/WO2023134328A1/zh
Publication of CN116489572A publication Critical patent/CN116489572A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供了一种电子设备控制方法、装置及电子设备,涉及AI技术领域。该方法包括:通过摄像头获取电子设备所处第一空间的第一图像,以及通过麦克风获取第一空间中的第一声音;根据第一图像,确定第一空间的空间参数,以及根据第一声音,确定第一空间对应的声音参数;根据空间参数和声音参数,确定声场环境参数,声场环境参数包括目标混响系数、目标吸收系数和第一空间的目标大小中的至少一种,目标吸收系数用于表征第一空间内的物体的材料对应的吸收系数;根据声场环境参数,对电子设备进行控制。由此使得电子设备内的语音识别模型、音频播放参数等统一模型可以自应的声场环境,避免了这些统一的模型在各种不同的环境下发生性能退化。

Description

一种电子设备控制方法、装置及电子设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种电子设备控制方法、装置及电子设备。
背景技术
智慧屏、智能音箱等电子设备正快速进入千家万户,人们可以通过这些设备来观看电视节目或者收听音乐等。为了使用户更加便捷地使用这些设备,通常会预置一些常用的语音识别模型、音频播放声学参数等到设备内,如唤醒词检测(keyword spotting,KWS)模型、语音识别(automatic speech recognition,ASR)模型、均衡(equalize,EQ)参数、动态范围控制(dynamic range compression,DRC)参数、各个拾音器(比如麦克风等)对应的传输通道时延参数等。
当前电子设备内的语音识别模型、音频播放参数等主要是通过实验室场景仿真、声学环境模拟等方式来调试获取的,这种方式为了适应一般的家庭场景,会选择泛化性较好的模型或参数统一部署到端侧,以满足大多数用户的使用体验。但每个用户实际的家庭环境空间大小、整体布局,装修材料不尽相同,从而导致了声场环境的差异性。由于这种差异性的存在,统一的模型在各种不同的环境可能会发生性能退化,影响用户体验。
发明内容
本申请提供了一种电子设备控制方法、装置、电子设备、计算机存储介质和计算机程序产品,能够使得电子设备内的语音识别模型、音频播放参数等统一模型可以自适应不同的声场环境,避免了这些统一的模型在各种不同的环境下发生性能退化,提升了用户体验。
第一方面,本申请提供一种电子设备控制方法,方法包括:通过摄像头获取电子设备所处第一空间的第一图像,以及通过麦克风获取第一空间中的第一声音;根据第一图像,确定第一空间的空间参数,以及根据第一声音,确定第一空间对应的声音参数,空间参数包括第一空间的第一大小和第一空间内的物体的材料类型,声音参数包括用于表征第一空间中混响大小的第一混响系数;根据空间参数和声音参数,确定声场环境参数,声场环境参数包括目标混响系数、目标吸收系数和第一空间的目标大小中的至少一种,目标吸收系数用于表征第一空间内的物体的材料对应的吸收系数;根据声场环境参数,对电子设备进行控制。
这样,通过视觉和声学多模态结合的方式,相互校验视觉和声学参数估计的结果(即空间参数和声音参数),使得获取到的声场环境参数的可靠性更高,为后续对电子设备进行控制提供了坚实的基础,从而可以较大程度提升用户体验。比如:可以有效提升语音识别服务、减小音频播放效果受声场环境的影响,提升电子设备的唤醒率和ASR的识别率,以及明显改善听音效果。
在一种可能的实现方式中,声场环境参数为目标混响系数,根据空间参数和声音参数,确定声场环境参数,具体包括:当第一混响系数的置信度大于第一混响值时,确定目标混响系数为第一混响系数;当第一混响系数的置信度小于或等于第一混响值,且大于第二混响值时,根据第一空间的第一大小和第一空间内的物体的材料类型,得到第二混响系数,以及根据第一混响系数和第二混响系数,得到目标混响系数;当第一混响系数的置信度小于或等于第二混响值时,根据第一混响系数、第二混响系数和第一混响系数的置信度,得到目标混响系数。
在一种可能的实现方式中,声场环境参数为目标吸收系数,根据空间参数和声音参数,确定声场环境参数,具体包括:当第一吸收系数的置信度大于第一吸收值时,确定目标吸收系数为第一吸收系数,其中,第一吸收系数根据第一空间内的物体的材料类型得到;当第一吸收系数的置信度小于或等于第一吸收值,且大于第二吸收值时,根据第一空间的第一大小和第一混响系数,得到第二吸收系数,以及根据第一吸收系数和第二吸收系数,得到目标吸收系数;当第一吸收系数的置信度小于或等于第二吸收值时,根据第一吸收系数、第二吸收系数和第一吸收系数的置信度,得到目标吸收系数。
在一种可能的实现方式中,声场环境参数为第一空间的目标大小,根据空间参数和声音参数,确定声场环境参数,具体包括:当第一空间的第一大小的置信度大于第一尺寸值时,确定目标大小为第一大小,其中,第一大小根据第一空间内的物体的材料类型得到;当第一大小的置信度小于或等于第一尺寸值,且大于第二尺寸值时,根据第一混响系数和第一空间内的物体的材料类型,得到第二大小,以及根据第一大小和第二大小,得到目标大小;当第一大小的置信度小于或等于第二尺寸值时,根据第一大小、第二大小和第一大小的置信度,得到目标大小。
在一种可能的实现方式中,根据声场环境参数,对电子设备进行控制,具体包括:根据声场环境参数,确定与声场环境参数相匹配的目标语音识别模型;将电子设备中的语音识别模型更新为目标语音识别模型。这样,电子设备即可以在进行语音识别时,根据当前的环境中的声场环境参数自适应优化语音识别模型,以及使用与当前的声场环境相匹配的语音识别模型进行语音识别,实现了语音识别功能对用户实际使用环境的自适应,避免了由于声场环境差异导致模型识别性能退化的情况,为良好的语音识别服务体验提供了保障,改善用户的使用体验。
在一种可能的实现方式中,根据声场环境参数,对电子设备进行控制,具体包括:根据声场环境参数,对电子设备所处的声场环境进行建模,得到第一空间的空间模型;基于空间模型进行声场模拟,得到位于第一空间中目标位置处对应的第一频响曲线;基于声场环境参数,从预置的理想声学频响库中确定出与声场环境参数相匹配的第二频响曲线;将第一频响曲线拟合为第二频响曲线。这样,当电子设备在播放声音时,即可以对音频播放效果进行自适应调参,从而使得用户的听音效果达到最佳,提升用户体验。示例性的,目标位置可以为在当前的声场环境下声音的响度、空间感、力度、清晰度均最优的位置。
在一种可能的实现方式中,根据声场环境参数,对电子设备进行控制,具体包括:将声场环境参数作为电子设备中对语音数据进行处理的增强算法的输入。这样,在用户通过电子设备进行语音通话时,通过增强算法根据输入的声场环境参数对用户通话时语音信号进行自适应增强,以改善通话质量,提升了户体验。
第二方面,本申请提供一种电子设备控制装置,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行如第一方面中所提供的方法。
第三方面,本申请提供一种电子设备,该电子设备包括至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中,当存储器存储的程序被执行时,处理器用于执行如第一方面中所提供的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行如第一方面中所提供的方法。
第五方面,本申请提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如第一方面中所提供的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1是本申请实施例提供的一种应用场景的示意图;
图2是本申请实施例提供的一种电子设备的硬件结构示意图;
图3是本申请实施例提供的一种电子设备控制方法的流程示意图;
图4是本申请实施例提供的一种根据声场环境参数对电子设备进行控制的步骤示意图;
图5是本申请实施例提供的另一种根据声场环境参数对电子设备进行控制的步骤示意图;
图6是本申请实施例提供的一种电子设备控制装置的硬件结构示意图。
具体实施方式
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
示例性的,图1示出了一种应用场景的示意图。如图1所示,在房间200中设置有电子设备100,在电子设备100上可以但不限于设置有摄像头110、麦克风120和扬声器130。电子设备100可以在房间200中进行声音识别并响应,也可以播放声音,等等。示例性的,该应用场景可以理解为是室内场景。其中,电子设备100可以但不限于为智能电视,本申请实施例中所指的智能电视可以是能与移动设备例如智能手机、平板电脑等进行交互的电视或其他具有大屏的电子设备,例如智能手机中的用户界面可以通过无线方式传输并在智能电视中呈现,用户在智能电视中的操作也可以影响智能手机。
在一些实施例中,图1中所示的电子设备100也可以替换为其他的电子设备,替换后的方案仍在本申请的保护范围内。示例性的,电子设备100可以为手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备和/或智能家居设备,本申请实施例对该电子设备100的具体类型不作特殊限制。
示例性的,图2示出了电子设备100的结构示意图。如图2所示,该电子设备100可以包括:摄像头110、麦克风120、扬声器130、处理器140、存储器150、收发单元160和显示屏170。
其中,摄像头110用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器140加工处理,以得到标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头110,N为大于1的正整数。示例性的,摄像头110可以用于采集电子设备100所处的环境中的图像。在一些实施例中,摄像头110和电子设备100可以单独设置,也可以集成在一起。
麦克风120,也称“话筒”,“传声器”,用于将声音信号转换为电信号。电子设备100可以设置至少一个麦克风120。在另一些实施例中,电子设备100可以设置两个麦克风120,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风120,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。示例性的,麦克风120可以用于采集环境中的声音信号,比如用户发出的声音等。在一些实施例中,麦克风120和电子设备100可以单独设置,也可以集成在一起。
扬声器130,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器130播放声音等。在一些实施例中,扬声器130和电子设备100可以单独设置,也可以集成在一起。
处理器140可以是通用处理器或者专用处理器。例如,处理器140可以包括中央处理器(central processing unit,CPU)和/或基带处理器。其中,基带处理器可以用于处理通信数据,CPU可以用于实现相应的控制和处理功能,执行软件程序,处理软件程序的数据。
存储器150上可以存有程序(也可以是指令或者代码),程序可被处理器140运行,使得处理器140执行本方案中描述的方法。可选地,存储器150中还可以存储有数据。可选地,处理器140还可以读取存储器150中存储的数据(例如,唤醒词检测模型、语音识别模型、均衡参数、动态范围控制参数、各个麦克风对应的传输通道时延参数等),该数据可以与程序存储在相同的存储地址,该数据也可以与程序存储在不同的存储地址。本方案中,处理器140和存储器150可以单独设置,也可以集成在一起,例如,集成在单板或者系统级芯片(system on chip,SOC)上。
在一些实施例中,电子设备100上还可以包括收发单元160。收发单元160可以实现信号的输入(接收)和输出(发送)。例如,收发单元160可以包括收发器或射频芯片。收发单元160还可以包括通信接口。示例性的,电子设备100可以通过收发单元160与服务器(图中未示出)通信,以从服务器处获取到所需的数据,比如语音识别模型等。
在一些实施例中,电子设备100上还可以包括显示屏170。该显示屏170可以用于显示图像,视频等。该显示屏170可以包括显示面板。显示面板可以采用液晶显示屏(liquidcrystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emittingdiode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏,N为大于1的正整数。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
接下来基于上文所描述的内容,对本申请提供的一种电子设备控制方法进行介绍。
示例性的,图3示出了一种电子设备控制方法的流程示意图。图3中所涉及的电子设备可以为上文所描述的电子设备100。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。例如可以由图2中所示的电子设备100执行,也可以由服务器等设备执行。为便于描述,下面以电子设备执行为例进行说明,如图3所示,该电子设备控制方法可以包括以下步骤:
S301、通过摄像头获取电子设备所处第一空间的第一图像。
具体地,电子设备可以通过与其配套的摄像头获取到电子设备所处的第一空间的第一图像。
在一些实施例中,当该方法由服务器等设备执行时,电子设备获取到第一图像后,可以将该第一图像发送至服务器等设备。
S302、通过麦克风获取第一空间中的第一声音。
具体地,电子设备可以通过与其配套的麦克风获取到第一空间中的第一声音。示例性的,第一声音可以为用户发出的声音。
在一些实施例中,在S301和/或S302之前,用户可以向电子设备下发进行声场环境参数优化的指令,电子设备获取到该指令后,可以启动与其配套的摄像头和/或麦克风,以获取到第一图像和/或第一声音。示例性的,电子设备在启动与其配套的麦克风后,可以提示用户发出声音,比如语音提示、图像提示、文字提示等等,以使得麦克风可以采集到用户发出的声音。
在一些实施例中,当该方法由服务器等设备执行时,电子设备获取到第一声音后,可以将该第一声音发送至服务器等设备。
S303、根据第一图像,确定第一空间的空间参数。
具体地,获取到第一图像后,可以将该第一图像输入至预先训练的与图像处理相关的神经网络模型,以得到第一空间的空间参数。示例性的,空间参数可以包括:第一空间的第一大小和第一空间内的物体的材料类型。示例性的,第一大小可以为第一空间的尺寸(比如:体积等)的大小。示例性的,第一图像可以为一个,也可以为多个。
S304、根据第一声音,确定第一空间对应的声音参数。
具体地,获取到第一声音后,可以将该第一声音输入至预先训练的与声音处理相关的神经网络模型,以得到第一空间对应的声音参数。示例性的,声音参数可以包括用于表征第一空间中混响大小的第一混响系数。示例性的,第一混响系数可以为T60,即声音在声场中衰减60db所需的时间。
S305、根据空间参数和声音参数,确定声场环境参数。
具体地,获取到空间参数和声音参数后,可以根据空间参数和声音参数,确定出声场环境参数。示例性的,声场环境参数可以包括目标混响系数、目标吸收系数和第一空间的目标大小。在一些实施例中,声场环境参数中还可以包括均衡EQ参数。
在一些实施例中,下面分别对根据空间参数和声音参数,确定目标混响系数、目标吸收系数和第一空间的目标大小进行说明。
a)目标混响系数
若第一混响系数的置信度大于第一混响值,可以将该第一混响系数作为目标混响系数。其中,第一混响系数的置信度可以由输出第一混响系数的神经网络模型一并输出。示例性的,第一混响值可以为0.9。
若第一混响系数的置信度小于或等于第一混响值,且大于第二混响值,可以先由第一空间的第一大小和第一空间内的物体的材料类型计算得到第二混响系数,然后,再由第一混响系数和第二混响系数,得到目标混响系数。示例性的,第二混响值可以为0.6。示例性的,计算第二混响系数的公式可以为:
其中,RT为混响系数,V为第一空间的大小,S为第一空间内各个材料的吸收系数的平均值。对于第一空间内材料的吸收系数,可以在得到材料的类型后,查询材料类型与材料的吸收系数之间的关系表得到。
示例性的,由第一混响系数和第二混响系数得到目标混响系数,具体可以为将第一混响系数和第二混响系数的平均值作为目标混响系数。
若第一混响系数的置信度小于或等于第二混响值,可以由第一混响系数和第二混响系数,得到目标混响系数。示例性的,得到目标混响系数的公式可以为:
RT=(m/2)×RT1+(1-m/2)×RT2 (公式2)
其中,RT为目标混响系数,RT1为第一混响系数,RT2为第二混响系数,m为第一混响系数(即RT1)的置信度。
b)目标吸收系数
若第一吸收系数的置信度大于第一吸收值,可以将该第一吸收系数作为目标吸收系数。其中,第一吸收系数的置信度可以由输出第一吸收系数的神经网络模型一并输出。示例性的,第一吸收值可以为0.8。示例性的,第一吸收系数可以为第一空间内各个物体的材料对应的吸收系数的平均值。示例性的,目标吸收系数可以用于表征第一空间内的物体(所有物体或者摄像头采集到的物体)的材料对应的吸收系数。
若第一吸收系数的置信度小于或等于第一吸收值,且大于第二吸收值,可以先由第一混响系数和第一空间的大小计算得到第二吸收系数,然后,再由第一吸收系数和第二吸收系数,得到目标吸收系数。示例性的,第二吸收值可以为0.5。示例性的,可以通过上述“公式1”对第一混响系数和第一空间的大小进行计算,以得到第二吸收系数。
示例性的,由第一吸收系数和第二吸收系数得到目标吸收系数,具体可以为将第一吸收系数和第二吸收系数的平均值作为目标吸收系数。
若第一吸收系数的置信度小于或等于第二吸收值,可以由第一吸收系数和第二吸收系数,得到目标吸收系数。示例性的,得到目标吸收系数的公式可以为:
Ab=(n/2)×Ab1+(1-n/2)×Ab2 (公式3)
其中,Ab为目标吸收系数,Ab1为第一吸收系数,Ab2为第二吸收系数,n为第一吸收系数(即Ab1)的置信度。
c)第一空间的目标大小
若第一空间的第一大小的置信度大于第一尺寸值,可以将该第一大小作为目标大小。其中,第一大小的置信度可以由输出第一大小的神经网络模型一并输出。示例性的,第一尺寸值可以为0.8。
若第一大小的置信度小于或等于第一尺寸值,且大于第二尺寸值,可以先由第一混响系数和第一吸收系数计算得到第二大小,然后,再由第一大小和第二大小,得到目标大小。示例性的,第二尺寸值可以为0.5。示例性的,可以通过上述“公式1”对第一混响系数和第一吸收系数进行计算,以得到第二大小。
示例性的,由第一大小和第二大小得到目标大小,具体可以为将第一大小和第二大小的平均值作为目标大小。
若第一大小的置信度小于或等于第二尺寸值,可以由第一大小和第二大小,得到目标大小。示例性的,得到目标大小的公式可以为:
V=(p/2)×AV1+(1-p/2)×V2 (公式3)
其中,V为目标大小,V1为第一大小,V2为第二大小,p为第一大小(即V1)的置信度。
这样通过上述对由视觉获取到的空间参数和由声学获取到的声音参数进行一致性校验,以提升获取到的声场环境参数的准确度。
在确定出声场环境参数后,可以执行S306。
S306、根据声场环境参数,对电子设备进行控制。
具体地,在确定出声场环境参数,即可以根据该声场环境参数对电子设备进行控制,从而使得电子设备能够更好的适应当前的声场环境(即当前的空间)。
作为一种可能的实现方式,当电子设备中设置有语音识别模型时,可以由声场环境参数获取到与该声场环境参数相匹配的语音识别模型。具体地,如图4所示,包括以下步骤:
S401、电子设备向服务器发送第一消息,第一消息中包括声场环境参数,第一消息用于请求获取与该声场环境参数相匹配的语音识别模型。
S402、服务器根据声场环境参数,确定出与该声场环境参数相匹配的目标语音识别模型。
具体地,在服务器中可以预置有不同声场环境参数对应的语音识别模型。当服务器获取到电子设备发送的声场环境参数后,服务器可以由该声场环境参数从其预置的语音识别模型中确定出目标语音识别模型。
示例性的,可以预先设定声场环境参数中每个子参数的权重值,然后,再由计算服务器获取到的声场环境参数与其预先存储的各个声场环境参数之间的匹配度,最后选取匹配度最高的一个声场环境参数对应的语音识别模型作为目标语音识别模型。其中,可以通过以下“公式4”计算匹配度,该公式为:
f=|RT-RT|×α+|V-V|×β+|Ab-Ab|×γ+|EQ-EQ|×δ+ε (公式4)
其中,f为匹配度,RT为服务器获取的电子设备发送的声场环境参数中的混响系数,RT为服务器中预置的声场环境参数中的混响系数,V为服务器获取的电子设备发送的声场环境参数中的空间的大小,V为服务器中预置的声场环境参数中的空间的大小,Ab为服务器获取的电子设备发送的声场环境参数中的吸收系数,Ab为服务器中预置的声场环境参数中的吸收系数,EQ为服务器获取的电子设备发送的声场环境参数中的EQ参数的值,EQ为服务器中预置的声场环境参数中的EQ参数的值,α、β、γ、δ、ε分别为预先设置的权重值。该公式中的各个参数可以根据实际情况选取,此处不做限定。
S403、服务器向电子设备发送第二消息,第二消息中包括目标语音识别模型。
S404、电子设备利用目标语音识别模型进行语音识别。
在一些实施例中,S401至S404也可以称之为:据声场环境参数,确定与声场环境参数相匹配的目标语音识别模型;将电子设备中的语音识别模型更新为目标语音识别模型。
这样,电子设备即可以在进行语音识别时,根据当前的环境中的声场环境参数自适应优化语音识别模型,以及使用与当前的声场环境相匹配的语音识别模型进行语音识别,实现了语音识别功能对用户实际使用环境的自适应,避免了由于声场环境差异导致模型识别性能退化的情况,为良好的语音识别服务体验提供了保障,改善用户的使用体验。
作为另一种可能的实现方式,当电子设备在播放声音时,可以由声场环境参数计算电子设备所在环境的声场分布图,根据声场分布图并结合人工智能搜索算法对音频播放效果进行自适应调参,使得用户的听音效果达到最佳。具体地,如图5所示,包括以下步骤:
S501、根据声场环境参数,对当前的声场环境进行建模,以得到电子设备所处的第一空间的空间模型。
具体地,在建模时,可以但不限于通过预置声场建模方式(比如开源pyroom库等),以及声场环境参数中所包括的空间的大小和空间内各个物体的吸收系数进行空间建模,从而完成对当前声场环境的建模,从而得到电子设备所处的第一空间的空间模型。
S502、基于得到的空间模型进行声场模拟,得到目标位置处对应的第一频响曲线。
具体地,得到第一空间的空间模型后,可以利用声场模拟技术在空间模型中进行声场模拟,以得到目标位置处对应的第一频响曲线。示例性的,目标位置可以为在当前的声场环境下声音的响度、空间感、力度、清晰度均最优的位置。
S503、基于得到的声场环境参数,从预置的理想声学频响库中确定出与该声场环境参数相匹配的第二频响曲线。
具体地,可以基于得到的声场环境参数,从预置的理想声学频响库确定出与该声场环境参数相匹配的第二频响曲线。示例性的,可以但不限于通过前述的“公式4”确定得到的声场环境参数与理想声学频响库中各个频响曲线对应的声场环境参数之间的匹配度。
S504、将第一频响曲线拟合为第二频响曲线。
具体地,可以比较第一频响曲线和第二频响曲线之间的差异,然后在利用两者之间的差异,通过调整EQ,DRC、各个麦克风对应的传输通道的时延参数等,从而将第一频响曲线拟合为第二频响曲线,进而使得用户在目标位置处的听到的声音的响度、空间感、力度、清晰度最优,听音效果最佳。
这样,当电子设备在播放声音时,即可以对音频播放效果进行自适应调参,从而使得用户的听音效果达到最佳,提升用户体验。
作为又一种可能的实现方式,当使用电子设备进行通话时,在获取声场环境参数后,可以将该声场环境参数作为电子设备中对语音数据进行处理的增强算法的输入,通过增强算法根据输入的声场环境参数对用户通话时语音信号进行自适应增强,以改善通话质量,提升用户体验。
由此,通过视觉和声学多模态结合的方式,相互校验视觉和声学参数估计的结果(即空间参数和声音参数),使得获取到的声场环境参数的可靠性更高,为后续对电子设备进行控制提供了坚实的基础,从而可以较大程度提升用户体验。比如:可以有效提升语音识别服务、减小音频播放效果受声场环境的影响,提升电子设备的唤醒率和ASR的识别率,以及明显改善听音效果。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。
基于上述实施例中的描述的方法,本申请实施例还提供了一种电子设备控制装置。请参阅图6,图6为本申请实施例提供的一种电子设备控制装置的结构示意图。如图6所示,电子设备控制装置600包括一个或多个处理器601以及接口电路602。可选的,电子设备控制装置600还可以包含总线603。其中:
处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、神经网络处理器(Neural Network Processing Unit,NPU)、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
接口电路602可以用于数据、指令或者信息的发送或者接收,处理器601可以利用接口电路602接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路602发送出去。
可选的,电子设备控制装置600还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。其中,该存储器可以与处理器601耦合。
可选的,存储器存储了可执行软件模块或者数据结构,处理器601可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
可选的,接口电路602可用于输出处理器601的执行结果。
需要说明的,处理器601、接口电路602各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。示例性的,电子设备控制装置600可以但不限于应用在图2中所示的电子设备100中。
应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。

Claims (11)

1.一种电子设备控制方法,其特征在于,所述方法包括:
通过摄像头获取电子设备所处第一空间的第一图像,以及通过麦克风获取所述第一空间中的第一声音;
根据所述第一图像,确定所述第一空间的空间参数,以及根据所述第一声音,确定所述第一空间对应的声音参数,所述空间参数包括所述第一空间的第一大小和所述第一空间内的物体的材料类型,所述声音参数包括用于表征所述第一空间中混响大小的第一混响系数;
根据所述空间参数和所述声音参数,确定所述声场环境参数,所述声场环境参数包括目标混响系数、目标吸收系数和所述第一空间的目标大小中的至少一种,所述目标吸收系数用于表征所述第一空间内的物体的材料对应的吸收系数;
根据所述声场环境参数,对所述电子设备进行控制。
2.根据权利要求1所述的方法,其特征在于,所述声场环境参数为目标混响系数,所述根据所述空间参数和所述声音参数,确定所述声场环境参数,具体包括:
当所述第一混响系数的置信度大于第一混响值时,确定所述目标混响系数为所述第一混响系数;
当所述第一混响系数的置信度小于或等于所述第一混响值,且大于第二混响值时,根据所述第一空间的第一大小和所述第一空间内的物体的材料类型,得到第二混响系数,以及根据所述第一混响系数和所述第二混响系数,得到所述目标混响系数;
当所述第一混响系数的置信度小于或等于所述第二混响值时,根据所述第一混响系数、所述第二混响系数和所述第一混响系数的置信度,得到所述目标混响系数。
3.根据权利要求1或2所述的方法,其特征在于,所述声场环境参数为目标吸收系数,所述根据所述空间参数和所述声音参数,确定所述声场环境参数,具体包括:
当第一吸收系数的置信度大于第一吸收值时,确定所述目标吸收系数为所述第一吸收系数,其中,所述第一吸收系数根据所述第一空间内的物体的材料类型得到;
当所述第一吸收系数的置信度小于或等于所述第一吸收值,且大于第二吸收值时,根据所述第一空间的第一大小和所述第一混响系数,得到第二吸收系数,以及根据所述第一吸收系数和所述第二吸收系数,得到所述目标吸收系数;
当所述第一吸收系数的置信度小于或等于所述第二吸收值时,根据所述第一吸收系数、所述第二吸收系数和所述第一吸收系数的置信度,得到所述目标吸收系数。
4.根据权利要求1-3任一所述的方法,其特征在于,所述声场环境参数为所述第一空间的目标大小,所述根据所述空间参数和所述声音参数,确定所述声场环境参数,具体包括:
当所述第一空间的第一大小的置信度大于第一尺寸值时,确定所述目标大小为所述第一大小,其中,所述第一大小根据所述第一空间内的物体的材料类型得到;
当所述第一大小的置信度小于或等于所述第一尺寸值,且大于第二尺寸值时,根据所述第一混响系数和所述第一空间内的物体的材料类型,得到第二大小,以及根据所述第一大小和所述第二大小,得到所述目标大小;
当所述第一大小的置信度小于或等于所述第二尺寸值时,根据所述第一大小、所述第二大小和所述第一大小的置信度,得到所述目标大小。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述声场环境参数,对所述电子设备进行控制,具体包括:
根据所述声场环境参数,确定与所述声场环境参数相匹配的目标语音识别模型;
将所述电子设备中的语音识别模型更新为所述目标语音识别模型。
6.根据权利要求1-5任一所述的方法,其特征在于,所述根据所述声场环境参数,对所述电子设备进行控制,具体包括:
根据所述声场环境参数,对所述电子设备所处的声场环境进行建模,得到所述第一空间的空间模型;
基于所述空间模型进行声场模拟,得到位于所述第一空间中目标位置处对应的第一频响曲线;
基于所述声场环境参数,从预置的理想声学频响库中确定出与所述声场环境参数相匹配的第二频响曲线;
将所述第一频响曲线拟合为所述第二频响曲线。
7.根据权利要求1-6任一所述的方法,其特征在于,所述根据所述声场环境参数,对所述电子设备进行控制,具体包括:
将所述声场环境参数作为所述电子设备中对语音数据进行处理的增强算法的输入。
8.一种电子设备控制装置,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行如权利要求1-7中任一所述的方法。
9.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-7任一所述的方法。
11.一种计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1-7任一所述的方法。
CN202210042081.6A 2022-01-14 2022-01-14 一种电子设备控制方法、装置及电子设备 Pending CN116489572A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210042081.6A CN116489572A (zh) 2022-01-14 2022-01-14 一种电子设备控制方法、装置及电子设备
PCT/CN2022/136611 WO2023134328A1 (zh) 2022-01-14 2022-12-05 一种电子设备控制方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210042081.6A CN116489572A (zh) 2022-01-14 2022-01-14 一种电子设备控制方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116489572A true CN116489572A (zh) 2023-07-25

Family

ID=87221880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210042081.6A Pending CN116489572A (zh) 2022-01-14 2022-01-14 一种电子设备控制方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN116489572A (zh)
WO (1) WO2023134328A1 (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337016A1 (en) * 2011-10-17 2014-11-13 Nuance Communications, Inc. Speech Signal Enhancement Using Visual Information
CN109686380A (zh) * 2019-02-18 2019-04-26 广州视源电子科技股份有限公司 语音信号的处理方法、装置及电子设备
US20190394567A1 (en) * 2018-06-22 2019-12-26 EVA Automation, Inc. Dynamically Adapting Sound Based on Background Sound
CN111766303A (zh) * 2020-09-03 2020-10-13 深圳市声扬科技有限公司 基于声学环境评估的语音采集方法、装置、设备和介质
CN111863005A (zh) * 2019-04-28 2020-10-30 北京地平线机器人技术研发有限公司 声音信号获取方法和装置、存储介质、电子设备
US10897570B1 (en) * 2019-01-28 2021-01-19 Facebook Technologies, Llc Room acoustic matching using sensors on headset
US20210058731A1 (en) * 2018-05-11 2021-02-25 Clepseadra, Inc. Acoustic program, acoustic device, and acoustic system
CN113597777A (zh) * 2019-05-15 2021-11-02 苹果公司 音频处理

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205754811U (zh) * 2016-05-12 2016-11-30 惠州Tcl移动通信有限公司 移动终端及其音频处理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337016A1 (en) * 2011-10-17 2014-11-13 Nuance Communications, Inc. Speech Signal Enhancement Using Visual Information
US20210058731A1 (en) * 2018-05-11 2021-02-25 Clepseadra, Inc. Acoustic program, acoustic device, and acoustic system
US20190394567A1 (en) * 2018-06-22 2019-12-26 EVA Automation, Inc. Dynamically Adapting Sound Based on Background Sound
US10897570B1 (en) * 2019-01-28 2021-01-19 Facebook Technologies, Llc Room acoustic matching using sensors on headset
CN109686380A (zh) * 2019-02-18 2019-04-26 广州视源电子科技股份有限公司 语音信号的处理方法、装置及电子设备
CN111863005A (zh) * 2019-04-28 2020-10-30 北京地平线机器人技术研发有限公司 声音信号获取方法和装置、存储介质、电子设备
CN113597777A (zh) * 2019-05-15 2021-11-02 苹果公司 音频处理
CN111766303A (zh) * 2020-09-03 2020-10-13 深圳市声扬科技有限公司 基于声学环境评估的语音采集方法、装置、设备和介质

Also Published As

Publication number Publication date
WO2023134328A1 (zh) 2023-07-20

Similar Documents

Publication Publication Date Title
WO2021098405A1 (zh) 数据传输方法、装置、终端及存储介质
WO2016184119A1 (zh) 一种音量调节方法、系统、设备和计算机存储介质
WO2015158182A1 (zh) 一种用户终端的音量调节方法、装置及终端
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
US11474775B2 (en) Sound effect adjustment method, device, electronic device and storage medium
US10978085B2 (en) Doppler microphone processing for conference calls
CN111370018B (zh) 音频数据的处理方法、电子设备及介质
WO2021203906A1 (zh) 自动音量调整方法、装置、介质和设备
WO2023016018A1 (zh) 语音处理方法和电子设备
EP4044578A1 (en) Audio processing method and electronic device
US11741984B2 (en) Method and apparatus and telephonic system for acoustic scene conversion
WO2022147692A1 (zh) 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
EP1783600A2 (en) Method for arbitrating audio data output apparatuses
US20240144948A1 (en) Sound signal processing method and electronic device
CN116489572A (zh) 一种电子设备控制方法、装置及电子设备
WO2022143505A1 (zh) 群组类型识别方法、装置、计算机设备及介质
CN112151017B (zh) 语音处理方法、装置、系统、设备及存储介质
CN114449341B (zh) 音频处理方法、装置、可读介质及电子设备
US20070067169A1 (en) Method for arbitrating audio data output apparatuses
WO2024027315A1 (zh) 音频处理方法、装置、电子设备、存储介质和程序产品
CN111696564B (zh) 语音处理方法、装置和介质
CN111696565B (zh) 语音处理方法、装置和介质
WO2024093460A9 (zh) 语音检测方法及其相关设备
US20230297322A1 (en) Device disturbance reduction
CN117692845A (zh) 声场校准方法、电子设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination