CN114171039A - 信号处理方法、装置及电子设备 - Google Patents
信号处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114171039A CN114171039A CN202210042604.7A CN202210042604A CN114171039A CN 114171039 A CN114171039 A CN 114171039A CN 202210042604 A CN202210042604 A CN 202210042604A CN 114171039 A CN114171039 A CN 114171039A
- Authority
- CN
- China
- Prior art keywords
- audio
- user
- state
- playing
- audio player
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims description 133
- 230000006854 communication Effects 0.000 claims description 72
- 238000004891 communication Methods 0.000 claims description 70
- 230000008569 process Effects 0.000 claims description 59
- 230000008859 change Effects 0.000 claims description 35
- 238000005516 engineering process Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010191 image analysis Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
本申请提出了一种信号处理方法、装置及电子设备,本申请将在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态,至少基于该语音状态控制音频播放器的播放参数,从而避免音频播放器所播放音频覆盖使用者的音频,这样,在对电子设备的音频采集器采集到的音频(其可以是使用者音频与播放音频的混合音频)进行对应处理时,能够可靠识别出使用者的音频,保证语音通信场景下的语音通信质量,提高语音通信效率。
Description
技术领域
本申请主要涉及通信技术领域,更具体地说是涉及一种信号处理方法、装置及电子设备。
背景技术
在电子设备的语音通话应用场景下,为了提高语音通话质量,可以利用人工智能(Artificial Intelligence,AI)中的语音处理技术,如回声消除技术对电子设备采集到的语音信号进行消噪处理,保证通话对方能够可靠接收到语音内容。
发明内容
有鉴于此,本申请提出了一种信号处理方法,包括:
在电子设备的音频播放器处于播放状态的情况下,获得所述电子设备的使用者的语音状态;
至少基于所述语音状态控制所述音频播放器的播放参数;
其中,所述播放参数至少用于电子设备对其音频采集器采集到的音频做对应处理。
可选的,其中,至少基于所述语音状态控制所述音频播放器的播放参数,包括:
如果所述使用者处于语音输入状态,控制所述音频播放器处于第一播放参数;且/或,
如果所述使用者处于未输入语音状态,控制所述音频播放器处于第二播放参数;
其中,所述音频播放器在所述第二播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值。
可选的,其中,至少基于所述语音状态控制所述音频播放器的播放参数,包括:
如果所述使用者处于语音输入状态、且所述电子设备处于第一形态,控制所述音频播放器处于第一播放参数;或,
如果所述使用者处于语音输入状态、且所述电子设备处于第二形态,控制所述音频播放器处于第三播放参数;或,
如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第一位置关系,控制所述音频播放器处于第四播放参数;或,
如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第二位置关系,控制所述音频播放器处于第五播放参数;
其中,所述音频播放器在所述第三播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值,所述音频播放器在所述第五播放参数下输出的信号能量值高于在所述第四播放参数下的信号能量值。
可选的,其中,还包括:
对所述音频采集器采集到的音频做对应处理,以使得所述电子设备向通信端输出第一音频,或在所述使用者处于未输入语音状态时,所述电子设备不输出所述音频采集器所采集的音频;
其中,所述第一音频不包括所述音频采集器采集的所述音频播放器播放的音频。
可选的,所述获得所述电子设备的使用者的语音状态,包括:
至少基于所述电子设备的目标传感器采集到的参数信息,获得所述使用者的嘴部轮廓变化信息,利用所述嘴部轮廓变化信息,确定所述使用者的语音状态;或,
基于作用于所述电子设备的控件的操作或状态,确定所述电子设备的使用者的语音状态;或,
基于所述电子设备的音频采集器采集到的音频,与所述电子设备的使用者的预设声纹信息的比对结果,确定所述使用者的语音状态。
可选的,还包括:
如果所述使用者处于语音输入状态,控制所述音频播放器处于静音状态,将所述音频播放器的待播放音频转换为文本信息;
输出所述文本信息;
如果所述使用者处于未输入语音状态,控制所述音频播放器从所述静音状态切换到所述播放状态。
可选的,在所述使用者处于语音输入状态下,控制所述音频播放器的播放参数的实现过程包括:
获取针对所述音频播放器的当前播放参数的参数阈值;其中,所述参数阈值是预先配置的数值,或基于所述使用者在所述音频播放器处于静音状态下采集到的音频的音频属性值所确定;
如果所述当前播放参数达到参数阈值,将所述音频播放器的当前播放参数调整为预设播放参数;所述预设播放参数为第一播放参数或第三播放参数或第四播放参数或第五播放参数;且/或,
如果所述当前播放参数未达到所述参数阈值,将所述当前播放参数确定为所述预设播放参数,控制所述音频播放器维持所述预设播放参数不变。
可选的,在所述将所述音频播放器的当前播放参数调整为预设播放参数之后,控制所述音频播放器的播放参数的实现过程还包括:
如果所述使用者从所述语音输入状态切换到未输入语音状态,将所述音频播放器的所述预设播放参数恢复调整前的播放参数。
本申请还提出了一种信号处理装置,所述装置包括:
语音状态获得模块,用于在电子设备的音频播放器处于播放状态的情况下,获得所述电子设备的使用者的语音状态;
播放参数控制模块,用于至少基于所述语音状态控制所述音频播放器的播放参数;
其中,所述播放参数至少用于电子设备对其音频采集器采集到的音频做对应处理。
本申请还提出了一种电子设备,所述电子设备包括:
音频采集器;音频播放器;通信接口;
存储器,用于存储实现如上述的信号处理方法的程序;
处理器,用于加载执行所述存储器存储的所述程序,以实现如上述的信号处理方法。
由此可见,本申请提出了一种信号处理方法、装置及电子设备,本申请将在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态,至少基于该语音状态控制音频播放器的播放参数,从而避免音频播放器所播放音频覆盖使用者的音频,这样,在对电子设备的音频采集器采集到的音频(其可以是使用者音频与播放音频的混合音频)进行对应处理时,能够可靠识别出使用者的音频,保证语音通信场景下的语音通信质量,提高语音通信效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为适用于本申请提出的信号处理方法的一可选场景示意图;
图2为适用于本申请提出的信号处理方法的电子设备的一可选示例的硬件结构示意图;
图3为适用于本申请提出的信号处理方法的电子设备的又一可选示例的硬件结构示意图;
图4为本申请提出的信号处理方法的一可选示例的流程示意图;
图5为本申请提出的信号处理方法的又一可选示例的流程示意图;
图6为本申请提出的信号处理方法的又一可选示例的流程示意图;
图7为适用于本申请提出的信号处理方法中,电子设备形态转换场景示意图;
图8为本申请提出的信号处理方法的又一可选示例的流程示意图;
图9为本申请提出的信号处理方法的又一可选示例的流程示意图;
图10为适用于本申请提出的信号处理方法的又一可选场景的流程示意图;
图11为本申请提出的信号处理装置的一可选示例的结构示意图。
具体实施方式
针对背景技术部分的描述,在进行多人在线会议、网络通话等应用场景下,在某参与电子设备的使用者说话过程中,该电子设备的音频播放器播放音频(即来自电子设备通信端的音频,如其他参与电子设备发送的音频,可以将其作为回声消除处理的参考信号)的音量很大,导致该电子设备的音频采集器所采集到的所播放的音频的信号能量,将会高于所采集到的使用者说话内容的音频的信号能量,如图1第一行附图所示处理流程,这样,后续再利用对应的参考信号,对音频采集器当前实际采集到的音频进行回声消除过程中,因使用者说话的音频与音频播放器所播放的音频之间的至少部分信号融合,直接从采集到的音频中过滤参考信号,很可能导致过滤所有的音频,无法输出使用者的音频,从而导致通信端无法接收到本地使用者的说话内容,极大降低了语音通话质量。
为了改善上述问题,参照图1第二行附图所示处理流程,本申请提出可以依据本地使用者的说话情况,灵活调整其电子设备的音频播放器的播放参数,以使得本地使用者能够可靠听到音频播放器所播放的通信端输出的语音通信内容,也能够在本地使用者说话时,降低音频播放器所播放音频的信号能量,保证后续处理时能够可靠识别出使用者的音频,从而保证多方语音通话场景中的通话质量。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图2,为适用于本申请提出的信号处理方法的电子设备的一可选示例的硬件结构示意图,该电子设备可以包括但并不局限于:手机、笔记本电脑、平板电脑、台式电脑、可穿戴设备、电脑一体机、智能音箱、智慧交通设备、智慧医疗设备等,可以依据应用场景需求确定,本申请对电子设备的产品类型不做限制。如图2所示,该电子设备可以包括但并不局限于:音频采集器210、音频播放器220、通信接口230、存储器240和处理器250,其中:
音频采集器210、音频播放器220、通信接口230、存储器240和处理器250各自的数量可以为至少一个;且音频采集器210、音频播放器220、通信接口230、存储器240和处理器250等可以连接电子设备中的通信总线,实现不同部件之间的通信连接,满足不同部件之间的数据传输需求,本申请对电子设备包含的各组成部件之间的通信连接实现方法不做详述,可视情况而定。
音频采集器210可以用于采集电子设备所在环境下存在的音频,如电子设备使用者说话产生的音频、电子设备音频播放器播放的音频,当然也可以包括电子设备所处环境下的其他噪声音频等,在不同场景下音频采集器210所采集到的音频可能不同,本申请在此不做举例详述。本申请实施例中,该音频采集器210可以是如上文列举的各电子设备中安装的麦克风,可以依据不同应用需求,灵活确定音频采集器210在电子设备中的安装位置和安装数量(如特定的麦克风阵列等),本申请对此不做限制。
音频播放器220可以是安装在电子设备中的扬声器等,用于播放电子设备获得的各种音频,本申请实施例对电子设备安装的音频播放器220的数量及各自的安装位置不做限制,可以依据电子设备产品类型及其本体结构、音频播放要求等多方面因素综合确定。在本申请实施例中,可以依据不同音频播放需求,可以调整音频播放器220的如播放音量、播放速度等播放参数,实现过程本申请实施例在此不做详述。
通信接口230可以是电子设备中对应通信模块的数据接口,对于不同类型的通信模块,其对应的通信接口230的类型及其通信协议要求等可能不同,可视情况而定。其中,通信模块可以包括能够利用无线通信网络实现数据交互的通信模块,如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块、GMS模块、近场通信模块等,因此,通信接口230可以包括支持无线通信的网络接口;可以理解,通信接口230还可以包括实现电子设备内部组成部件之间的数据交互的接口,如USB接口、串/并口等,以及用于实现与本地设备进行通信的如多媒体接口等数据接口,本申请对通信接口230包含的接口类型和数量不做限定,可视情况而定。
存储器240可以用于存储实现上述各方法实施例描述的信号处理方法的程序;处理器250可以加载并执行存储器240存储的该程序,以实现下文相应方法实施例描述的信号处理方法的各个步骤,具体实现过程可以参照下文实施例相应部分的描述,本实施例在此不做详述。
可以理解,上述存储器240可以包括程序存储区和数据存储区,该程序存储区可以存储电子设备的操作系统及其实现的至少一个功能所需的应用程序(如语音通信功能的语音通信应用,如社交软件、打电话等),以及实现本申请提出的信号处理方法的程序等。数据存储区可以存储电子设备运行过程中产生的各种数据,如采集到的音频、获得的来自外部设备的音频、对采集到的音频进行对应处理后的音频等。
在本申请实施例中,存储器240可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器250,可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。本申请对上述存储器240和处理器250的结构及其型号不做限定,可以根据实际需求灵活调整。
应该理解的是,图2所示的电子设备的结构并不构成对本申请实施例中电子设备的限定,在实际应用中,电子设备可以包括比图2所示的更多或更少的部件,或者组合某些部件,如图3所示,电子设备还可以包括如温度传感器、压力传感器、陀螺仪、距离传感器等各种传感器构成的传感器模组;如摄像头、感应触摸显示面板上的触摸事件的触摸感应单元等输入部件;如显示器、振动机构、灯等至少一个输出部件;天线;电源模组等,图3中并未示出所列举的各输入部件和各输出部件,可以依据电子设备类型及其功能需求确定硬件结构,本申请在此不做一一列举。
参照图4,为本申请提出的信号处理方法的一可选示例的流程示意图,该方法可以由电子设备执行,如图4所示,该方法可以包括但并不局限于以下步骤:
步骤S41,在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态;
结合上文对本申请技术方案的相关描述,为了避免音频播放器处于播放状态下,所播放音频的信号能量过高而覆盖本地说话人(即电子设备使用者)的音频信号能量,导致无法识别出本地说话人的音频的情况发生,本申请提出在音频播放器处于播放状态下,监控电子设备使用者的语音状态,确定使用者在该播放状态下是否在说话,即使用者是否处于语音输入状态,本申请对使用者的语音状态的获取方法不做限制。
在一些实施例中,本申请可以结合人工智能AI技术中的图像识别算法,监控电子设备使用者的嘴型变化,来确定使用者是否说话;也可以利用电子设备中配置的多个距离传感器,感应使用者嘴部连续多个位置点的距离变化,由此分析使用者是否在说话等。在又一些实施例中,本申请也可以预先录制电子设备使用者的音频,提取使用者的声纹特征,这样,在实际应用中,可以将音频采集器采集到的音频进行声纹识别,来确定电子设备使用者是否在说话等,可以依据场景需求确定,包括但并不局限于本实施例描述这几种使用者的语音状态的获取方法。
步骤S42,至少基于该语音状态控制音频播放器的播放参数。
如上述分析,音频播放器处于播放状态下,若其播放参数不合适,如播放音量过大、播放语速与使用者说话语速接近等,会导致音频播放器所播放的音频覆盖使用者的音频,为了解决这一问题,在确定使用者在音频播放器播放音频过程中说话,即使用者处于语音输入状态,需要控制音频播放器的播放参数,使其处于针对当前场景下的合适参数值,实现方法本申请实施例在此不做详述。
基于此,电子设备的音频采集器进行音频采集,所采集到的混合音频,即音频播放器所播放的音频和使用者说话的音频处于同一空间而采集到的音频中,能够保证使用者的音频被可靠识别出,满足应用需求。因此,本申请中的播放参数可以至少用于电子设备对其音频采集器采集到的音频做对应处理,如基于不同播放参数对采集到的音频进行回声消除处理,提高语音通话场景下的语音通话质量,本申请对采集到的音频的处理实现方法不做限制,可视情况而定。
按照上述分析方式,确定使用者处于未输入语音状态,也就是说,在电子设备的音频播放器处于播放状态的情况下,使用者并未说话的场景,使用者通常是要听音频播放器所播放音频的内容,为了避免播放内容对通信对端的干扰,可以暂时控制音频采集器处于静音状态,或禁止电子设备对外发送音频,或消除在此期间采集到的音频等处理,实现方法本申请不做限制,可视情况而定。
参照图5,为本申请提出的信号处理方法的又一可选示例的流程示意图,本实施例可以是上文描述的信号处理方法的一可选细化实现方法,但并不局限于本实施例描述的这种细化实现方法,且该方法仍可以由电子设备执行,如图5所示,该方法可以包括但并不局限于以下步骤:
步骤S51,在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态;
关于步骤S51的实现过程,可以参照上文相应部分的描述,本实施例在此不做赘述。
步骤S52,如果使用者的语音状态为语音输入状态,控制音频播放器处于第一播放参数;
步骤S53,如果使用者的语音状为未输入语音状态,控制音频播放器处于第二播放参数;
继上文实施例的描述,按照上述处理方式,在音频播放器播放音频的过程中,确定使用者处于语音输入状态,为了避免该播放音频覆盖使用者的音频,可以检测音频播放器当前所具有的播放参数是否为第一播放参数,若不是,可以将其调整为第一播放参数;若当前配置的播放参数就是第一播放参数,可以不做调整,之后,使用者说话产生的音频被音频采集器采集后,虽然同时采集到音频播放器所播放的音频,但电子设备能够对实际采集到的混合音频进行对应处理,满足实际应用需求,如利用回声消除技术等,从混合音频中可靠性分离出使用者的音频等,本申请对音频采集器所采集到的混合音频的处理方法不做限制。
若在音频播放器播放音频过程中,使用者处于未输入语音状态,说明当前场景下不需要采集使用者的音频,为了保证使用者可靠听到播放音频内容,可以控制音频播放器的播放参数处于第二播放参数,使得音频播放器在第二播放参数下输出的信号能量值高于在第一播放参数下的信号能量值。
因此,在本申请实际应用中,在音频播放器播放音频过程中,由于电子设备的音频采集器处于工作状态,若在该过程中使用者说话,为了降低播放音频的干扰,可以控制音频播放器处于第一播放参数,如降低音频播放器的播放音量、调整播放语速等;使用者说完后暂时不再说话,可以将之前调整的播放参数调整至第二播放参数,如增大播放音量,保证使用者能够清楚可靠收听到播放音频内容;之后,该使用者再说话即再次进入语音输入状态,且音频播放器仍处于播放状态,可以按照上文描述方式继续调整播放参数,如此实时或周期性监控,保证整个语音通信环境下的不同阶段对音频采集和音频播放的信号处理要求。
需要说明,关于上述第一播放参数和第二播放参数,可以结合电子设备的音频播放器与音频采集器之间的相对位置关系、使用者与音频采集器之间的相对位置关系,和/或使用者每次说话(即处于语音输入状态下)的音频音量、语速等语音输入参数之中的一种或多种组合确定。因此,包括但并不局限于本文列举的这几种影响因素的变化,都可能会导致上述控制的第一播放参数和/或第二播放参数不同,本申请对播放参数的调整方式及不同情况下调整的播放参数数值不做限制。
示例性的,针对任一类型的电子设备,本申请可以预先统计不同使用者使用该类电子设备进行语音通信过程中,使用者处于语音输入状态所采用的语音输入参数(如音量、语速等),之后,可以依据语音输入参数的平均值,来确定音频播放器处于播放状态下,应该配置什么播放参数,才能够不影响电子设备从音频采集器所采集到的音频(即播放音频和使用者音频的混合音频)中,可靠识别出使用者的音频,即确定上述第一播放参数,如播放音量调整为50%等,本申请对第一播放参数的数值不做限制。
可以理解,对于不同类型的电子设备,使用者对电子设备的使用方式,以及电子设备的音频播放器和音频采集器的位置关系可能不同,按照上文描述的方式所确定的第一播放参数可能不同,这就需要针对不同类型的电子设备,预先配置其对应的第一播放参数。
而对于使用者处于未输入语音状态下,可以统计不同使用者使用某一类型电子设备过程中,使用者与电子设备之间的位置关系,据此确定电子设备的音频播放器以什么播放参数进行音频播放,能够保证使用者清楚收听到音频内容,且不会因播放音量和/或语速等播放参数过大降低使用者感受,将该播放参数确定为第二播放参数。同理,对于不同性能的电子设备,以及使用者对电子设备的使用方式不同,按照上文描述的方法所配置的第二播放参数可能不同,可视情况而定。
需要说明,在按照上文描述的方法配置播放参数的过程中,所配置的第一或第二播放参数可以是确定的某一参数值,也可以是参数值范围,这样就可以实际应用中电子设备使用者的实际语音输入参数,从预设第一播放参数的参数值范围内,灵活选择相适应的第一播放参数,提高后续信号处理的可靠性。
在本申请提出的又一些实施例中,按照上文描述的方法,确定电子设备的使用者处于语音输入状态,控制音频播放器处于第一播放参数后,若按照第一播放参数播放音频,使用者能够听到音频内容,可以控制该音频播放器维持在第一播放参数,也就是说,在使用者不再说话即处于未输入语音状态下,也可以不用调整音频播放器的第一播放参数至第二播放参数。当然,若使用者听不清播放音频内容,也可以通过按钮、语音控制等方式,调整音频播放器的播放参数至第二播放参数或其他播放参数等,并不局限于上文步骤S53的处理方式。
在又一些实施例中,若默认音频播放器按照第二播放参数进行音频播放,使用者未说话,可以维持该处理方式;若使用者开始说话,检测到按照第二播放参数播放的音频,并不会对使用者说话内容造成干扰,也可以不用调整音频播放器的播放参数,或当前应用场景对使用者音频内容要求比较严格,也可以直接控制音频播放器进入静音状态,即第一播放参数的参数值为零。所以说,在电子设备播放音频过程中,使用者说话,并不一定会执行步骤S52,也可以采用其他处理方式,满足具体应用需求,本申请在此不做详述。
步骤S54,对电子设备的音频采集器采集到的音频做对应处理,以使得电子设备向通信端输出第一音频,该第一音频不包括音频采集器采集到的音频播放器播放的音频。
继上文描述,若电子设备的音频播放器播放音频,且使用者处于语音输入状态,电子设备的音频采集器进行音频采集,将会采集到两类音频构成的混合音频,之后,可以依据当前应用需求对该采集到的音频进行处理,如在语音通信场景下,音频播放器所播放的音频通常是电子设备接收到的通信端(即与本电子设备进行语音通信的其他设备,如参与语音通信的电子设备,和/或支持语音通信功能的通信服务器等,可视情况而定)发送的音频,本电子设备可以将接收到的该音频作为参考信号,对采集到的音频进行回声消除处理,将处理后得到的第一音频(其通常是使用者说话产生的音频,不包括音频采集器采集到的音频播放器播放的音频)发送至通信端。
当然,在其他如音频录制等应用场景下,也可以采用这种消噪技术或其他语音识别技术,对采集到的音频进行处理,得到所需的目标音频。如利用语音合成技术等,对经过降噪处理得到的使用者音频进行变声处理,将得到的具有其他指定用户音色的合成音频确定为第一音频等,并不局限于步骤S54的场景处理方式,实现过程可以结合所执行的语音识别技术的处理原理确定,本实施例在此不做详述。
可以理解,在电子设备的使用者处于语音输入状态时,音频播放器处于静音状态,电子设备可以直接将采集到的音频作为第一音频发送至通信端;或者如上述描述,依据具体应用场景需求,对使用者音频进行相应处理等;而在音频播放器处于播放状态下,若使用者处于未输入语音状态,为了避免播放音频对通信端造成干扰,电子设备可以不输出音频采集器所采集到的音频(即音频播放器所播放的音频),对此,电子设备仍可以对采集到的音频进行回声消除,从而滤除音频播放器所播放的音频,即当前采集到的音频,使得电子设备不输出音频;也可以控制该音频采集器处于静音状态;或不响应音频输出指令,删除采集到的音频。
在又一些实施例中,在多端电子设备语音通信场景下,作为本电子设备的通信端,接收到本电子设备发送的音频后,也可以将其与通信端发送的音频进行比较,不输出与自身发送的音频内容相同的音频,这样,避免了通信端播放自己所采集并发送的音频的情况发生。因此,电子设备接收到通信端发送的音频后,可以将其与本电子设备在此之前特定时间段内采集到的并发送至通信端的历史音频进行比较,确定接收到的音频包含本电子设备所采集到的历史音频,可以过滤所接收到音频中的历史音频后发送至音频播放器进行播放。
参照图6,为本申请提出的信号处理方法的又一可选示例的流程示意图,本实施例可以是上文描述的信号处理方法的又一可选细化实现方法,区别于上文细化实施例描述的播放参数控制实现方式,该方法仍可以由电子设备执行,如图6所示,该方法可以包括但并不局限于以下步骤:
步骤S61,在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态以及电子设备的形态;
关于电子设备使用者的语音状态的获得方法,可以结合上下文实施例对应部分的详细描述,本实施例在此不做详述。
本申请实施例中,如上述分析,电子设备中音频采集器与音频播放器之间的相对位置关系,直接影响了回声消除效果,而音频播放器和音频采集器可能会位于电子设备的不同本体结构上,随着电子设备形态改变,导致其中音频播放器与音频采集器之间的相对位置关系发生变化,也就是说,在不同的电子设备形态下,其音频采集器与音频播放器之间的相对位置关系不同,若仍按照上文实施例描述的播放参数控制方式,可能会影响后续对采集到的混合音频的回声消除效果。
因此,在音频播放器处于播放状态下,本申请实施例可以监控电子设备的形态,由此来确定电子设备的音频播放器与音频采集器之间的相对位置关系,本申请对电子设备形态的获取方法不做限制。可选的,可以依据电子设备中配置的如陀螺仪、姿态传感器等传感器模组所感应到的参数,来确定电子设备的当前形态;当然,若在电子设备的形态发生变化时生成对应的转换指令,可以依据该转换指令,来确定电子设备的当前形态等,本申请在此不做一一举例详述。
步骤S62,确定使用者处于语音输入状态,且电子设备处于第一形态,控制音频播放器处于第一播放参数;
步骤S63,确定使用者处于语音输入状态,且电子设备处于第二形态,控制音频播放器处于第三播放参数;
在本申请实施例中,以电子设备是具有显示屏的终端为例进行说明,如图7所示的电脑一体机,其音频播放器可以位于底座上,音频采集器可以位于其显示部件上;或者音频采集器位于底座上,音频播放器位于显示部件侧面和/或背面等,在电子设备位于如图7右侧所示的第一形态(即竖屏状态)下,与其处于如图7左侧所示的第二形态(即横屏状态)下,音频采集器与音频播放器之间的相对位置关系会发生改变,对包含同一播放参数下的播放音频的采集音频进行回声消除的效果往往不同。
假设相对于处于第二形态下的电子设备,若其处于第一形态下,电子设备的音频采集器与音频播放器之间的距离更小,也就是说,电子设备从横屏状态切换到竖屏状态,会减少其音频采集器与音频播放器之间的距离,在一定程度上可以增大回声干扰,在调整音频播放器的播放参数时,可以使得音频播放器在第三播放参数下输出的信号能量值高于在第一播放参数下的信号能量值。以播放参数为音量为例进行说明,若使用者在播放音频过程中说话,电子设备处于横屏状态下控制音频播放器配置的播放音量,大于电子设备处于竖屏状态下控制音频播放器配置的播放音量,但本申请对这两种情况下第一播放参数和第二播放参数的数值不做限制。
可以理解,若相对于处于第二形态下的电子设备,若其处于第一形态下,电子设备的音频采集器与音频播放器之间的距离更大,也就是说,电子设备从横屏状态切换到竖屏状态,会增大其音频采集器与音频播放器之间的距离,那么,音频播放器在第三播放参数下输出的信号能量值低于在第一播放参数下的信号能量值。所以说,关于第一播放参数与第二播放参数之间的数值关系,可以依据第一形态和第二形态两者表征的音频采集器与音频播放器之间的相对位置关系确定,此处可以指这两个器件之间的相对距离大小。
其中,关于上述第一播放参数和第三播放参数的具体获取方法,可以参照上文实施例对第一播放参数和第二播放参数的获取方法的描述,且在获取过程中,本申请实施例除了考虑使用者的语音输入参数外,还可以考虑电子设备的形态(即音频采集器与音频播放器之间的相对位置关系)确定,也就是说,基于使用者的语音输入参数和电子设备的形态,确定电子设备的使用者处于语音输入状态下,且音频播放器处于播放状态时,该音频播放器需要的第一播放参数和第三播放参数,实现过程本申请不做详述。
在本申请提出的又一些实施例中,对于电子设备形态改变会导致音频播放器与音频采集器之间的相对位置关系发生变化的一类电子设备的应用中,在音频播放器处于播放状态下,控制该音频播放器的播放参数时,对于上述步骤S62和步骤S63并不约束在同一应用场景中执行,也就是说,在使用者处于语音输入状态下,执行步骤S62或步骤S63过程中,电子设备的形态发生变化后,并不一定按照本实施例描述的方法执行这两个步骤中的另一步骤,如上文实施例对步骤S52和步骤S53对应部分的描述,还可以采用其他控制方式,实现对音频播放器的控制,如控制音频播放器处于静音状态等。
在又一些实施例中,在整个语音通信过程中,使用者可能不会一直说话,按照上文描述的语音状态获得方法,确定使用者处于未输入语音状态,即使用者不再说话,可以按照上文步骤S53描述的处理方式,调整音频播放器的播放参数;也可以在步骤S53描述的处理方式的基础上,结合电子设备的形态,来确定新的第二播放参数,保证使用者能够可靠听到音频播放器所播放音频的内容,实现过程本申请实施例不做详述。
为了避免频繁对音频播放器的播放参数的频繁调整,即使用者说话停顿间隙(如2s等较短时间),按照上文描述方法控制音频播放器处于第二播放参数;停顿后接着说话,又控制音频播放器进入第一播放参数或第三播放参数等,造成资源浪费,降低用户体验,本申请还可以配置电子设备从语音输入状态切换到未输入语音状态后,需要在该未处于语音状态维持的预设时长,若使用者处于未输入语音状态的统计时长达到该预设时长,可以认为使用者当前阶段不再说话,再按照上文描述的方法,控制其音频播放器处于第二播放参数。本申请对该预设时长的数值不做限制,可以依据使用者的语速等确定。
步骤S64,对电子设备的音频采集器采集到的音频进行对应处理,得到第一音频;
步骤S65,将第一音频发送至电子设备的通信端。
关于步骤S64和步骤S65的实现过程,可以参照上文实施例相应部分的描述,本实施例不做赘述。可以理解,步骤S64涉及到的音频处理方式,包括但并不局限于回声消除、语音合成等信号处理技术,可以依据应用场景需求确定。
应该理解的是,对于不同播放参数,在上述应用场景中,对音频采集器所采集到的音频(即多类音频同时存在产生的混合音频)进行回声消除处理时,因该音频中包含的所采集到的音频播放器播放音频的信号能量和/或信号能量变化情况等不同,将其与已知的参考信号进行比较时,依据比较结果确定回声噪声的判断标准可以相应调整,具体可以结合回声消除工作原理确定,本申请在此不做详述。
可选的,电子设备获得音频播放器待播放的音频后,可以基于音频播放器的不同播放参数,配置对应的参考信号,这样,按照上文描述的方法,针对实际情况控制音频播放器的播放参数后,对音频采集器采集到的音频进行回声消除时,可以调用与该播放参数对应的参考信号实现,实现过程不做详述。
在本申请实际应用中,结合上述分析,在对音频播放器的播放参数控制过程,由于采集到的使用者的音频信号能量等音频属性,也会影响对采集到的音频的处理效果,所以,本申请除了上文实施例描述的考虑使用者的语音状态和电子设备形态外,还可以考虑其他因素,如使用者与电子设备之间的位置关系,甚至可以是使用者与电子设备的音频采集器之间的位置关系,如相对距离等。
基于此,参照图8所示,为本申请提出的信号处理方法的又一可选示例的流程示意图,本实施例可以是上文描述的信号处理方法的又一可选细化实现方法,区别于上文细化实施例描述的播放参数控制实现方式,该方法仍可以由电子设备执行,如图8所示,该方法可以包括:
步骤S81,在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的语音状态,以及使用者与电子设备之间的位置关系;
关于使用者的语音状态的获取方法,可以参照上下文相应实施例的描述。关于使用者与电子设备之间的位置关系可以包括两者之间的相对距离,可以基于使用者的视频数据(其可以由电子设备配置的图像采集器(如摄像头)获得,或电子设备本地配置的独立图像采集设备获得后发送至电子设备等,本申请对视频数据的采集实现方法不做限制),通过图像分析方式确定使用者与电子设备之间的位置关系。如通过单目或双目摄像头实现距离检测等,本申请对如何利用图像采集器实现距离检测的方法不做详述。
可选的,本申请也可以基于电子设备中的距离传感器(如红外或超声波或Tof(Time of flight)传感器等)所感应到的参数,来确定使用者与电子设备之间的位置关系。其中,为了提高检测准确性,可以配置多个距离传感器,如呈阵列排布的多个距离传感器,在使用者位于距离传感器的距离感应范围内时,通过对各距离传感器感应到的其与对应位置点(即使用者身体上的位置点)之间的距离进行分析,确定使用者与电子设备之间的位置关系。根据需要可以据此监控使用者与电子设备之间的位置关系变化,如距离变化情况等,实现过程不做详述。
需要说明,关于使用者与电子设备之间的位置关系的检测方法,包括但并不局限于上文描述的图像分析和距离感应实现方式,在又一些实施例中,也可以采用声源(即使用者)定位方法或借助使用者随身携带的其他定位设备,来确定使用者与电子设备之间的位置关系,本申请在此不做一一举例详述。可以理解,对于使用者与电子设备之间的位置关系的分析确定过程,可以由电子设备执行,也可以由其他设备获得后实时发送至电子设备,本申请对此不做限制。
其中,按照上文描述的位置关系获取方法,本申请可以获得使用者与电子设备的音频采集器之间的位置关系,来表示上述使用者与电子设备之间的位置关系,但并不局限于由音频采集器表示电子设备,可视情况而定。
步骤S82,确定使用者处于语音输入状态,且使用者与电子设备之间处于第一位置关系,控制音频播放器处于第四播放参数;
步骤S83,确定使用者处于语音输入状态,且使用者与电子设备之间处于第二位置关系,控制音频播放器处于第五播放参数;
本申请实施例中,假设相对于上述第二位置关系,第一位置关系表示使用者与电子设备之间的距离更远,也就是说,使用者靠近电子设备,表明使用者与电子设备之间的位置关系从第一位置关系变为第二位置关系,使用者处于语音输入状态,电子设备的音频采集器所采集到的使用者的音频的信号能量会越来越高,在电子设备的音频采集器与音频播放器之间的相对位置关系不变的情况下,使用者的音频受同一播放参数的播放音频这一回声噪音的干扰越小。所以,在保证后续能够从混合音频中可靠识别出使用者音频的情况下,对音频播放器的播放参数的要求较低,控制该音频播放器所处的第五播放参数下输出的信号能量值,可以高于处于第四播放参数下输出的信号能量值。
基于此,以上述播放参数为音量为例进行说明,在音频播放器处于播放状态,且使用者处于语音输入状态下,若使用者与电子设备之间的距离较远(可以通过实际检测到的距离值与预设的距离阈值进行比较,若大于或等于距离阈值,认为处于第一位置关系;反之,若小于距离阈值,可以认为处于第二位置关系,但并不局限于这种检测方式),可以控制音频播放器处于较小音量;若使用者与电子设备之间的距离较近(即处于第二位置关系),可以控制音频播放器处于相对较大音量(其通常小于使用者处于未输入语音状态下,音频播放器播放音频的音量),从而避免播放器播放的音频覆盖使用者的音频,导致后续无法从实际采集到的音频中识别出使用者的音频。
应该理解的是,音频播放器播放同一音频,所配置的播放音量越大,所播放音频的信号能量越高;反之,播放音量越小,所播放音频的信号能量越低。且对于上述播放参数包括但并不局限于音频的音量,根据需要还可以包括音频的其他属性参数,本申请在此不做详述。
在本申请提出的又一些实施例中,在控制音频播放器所处播放参数之前,本申请还可以综合分析使用者的语音状态、电子设备的形态(即音频播放器与音频采集器之间的相对位置关系),以及使用者与电子设备(如音频采集器)之间的位置关系这三方面影响因素,确定使用者处于语音输入状态下,使用者和音频播放器各自与音频采集器之间相对距离等,来控制音频播放器所处播放参数,实现过程可以结合上文两个实施例对应部分的描述实现,本申请不做举例详述。
其中,在基于上文列举的一种或多种组合的影响因素,控制音频播放器所处的播放参数,可以依据预先基于对应的影响因素所配置的播放参数之间的对应关系确定,即基于使用者的不同语音输入参数、使用者和/或音频播放器与音频采集器之间的不同距离等,确定回声消除效果满足预设要求时音频播放器对应的音频播放参数,实现过程可以结合上文实施例相应部分的描述,本实施例在此不做详述。
步骤S84,对音频采集器采集到的音频进行对应处理,以使得电子设备向通信端输出第一音频。
关于步骤S84的实现过程可以参照上文实施例相应部分的描述,本实施例在此不做赘述。
综上,本申请实施例中,在电子设备的音频播放器处于播放状态下,若使用者处于语音输入状态下,将考虑使用者与电子设备之间的位置关系,即考虑不同距离声源产生的音频,被同一播放音频的干扰效果,来适应性调整音频播放器的播放参数,从而可靠保证该场景下对采集到的音频的处理效率,更好地满足应用需求。
对于上文各实施例中,获得电子设备的使用者的语音状态的实现方法,本申请可以通过图像分析、距离感应、作用于电子设备的控件的操作或状态等任一种或多种组合方式实现,实现过程可以参照但并不局限于下文实施例相应部分的描述。关于信号处理方法中,对音频播放器的播放参数的控制实现方法,可以参照上文实施例相应部分的描述,下文实施例不做赘述。
在一些实施例中,本申请可以通过监控电子设备的使用者的嘴部轮廓变化,来确定使用者的语音状态,因此,可以至少基于电子设备的目标传感器采集到的参数信息,来获得使用者的嘴部轮廓变化信息。其中,该目标传感器可以是图像采集器、红外传感器、Tof传感器等,对于不同类型的目标传感器所采集到的参数信息表示形式可能不同,但可以由此表征使用者的嘴部轮廓变化,本申请对目标传感器如何采集参数信息的实现过程不做详述。
参照图9,为本申请提出的信号处理方法的又一可选示例的流程示意图,本实施例可以是上文描述的信号处理方法的又一可选细化实现方法,可以是对使用者语音状态的获取方法进行细化描述,本实施例是以上述目标传感器为图像采集器为例进行说明,并不局限于本申请描述的细化实现方法。该方法仍可以由电子设备执行,如图9所示,该方法可以包括:
步骤S91,在电子设备的音频播放器处于播放状态的情况下,获得该电子设备的使用者的视频数据;该视频数据至少包括使用者的嘴部视频数据;
步骤S92,至少基于使用者的嘴部视频数据,获得使用者的嘴部轮廓变化信息;
步骤S93,利用该嘴部轮廓变化信息,确定使用者的语音状态;
本申请实施例中,目标传感器采集到的参数信息可以是视频数据,且使用者的视频数据可以由电子设备中的图像采集器采集得到,或由区别于电子设备的独立图像采集器采集后发送至电子设备,本申请对使用者的视频数据的获取方法不做限制。为了保证所采集到的视频数据至少包括使用者的嘴部视频数据,可以结合追踪检测技术,动态控制图像采集器的图像采集范围,实现过程本申请不做详述。
在一些实施例中,如在视频会议等语音通信应用场景下,参照图10所示的信号处理流程示意图,电子设备的图像采集器处于拍摄状态,实时获取拍摄范围内的视频数据,如使用者的视频数据,将其或与处理后的使用者的音频发送至通信服务器,由其转发给其他参与会议的电子设备输出,使得参与会议的各电子设备输出如图10所示的会议界面,并输出当前发言用户的音频,关于多方视频会议的通信原理本申请不做详述。
基于此,对于参与视频会议的任一电子设备,确定其音频播放器正在播放音频,为了检测电子设备使用者是否在说话,可以对图像采集器所拍摄到的视频数据进行分析,确定其中使用者的嘴部视频数据(即连续多帧嘴部图像),以便后续据此分析使用者的嘴部轮廓变化信息(即嘴型变化)。本申请对如何通过图像分析方式,确定使用者嘴型变化的实现方法不做详述。
需要说明,对于区别于视频会议的其他语音通信应用场景,获得使用者的嘴部视频数据的实现过程类似,本申请实施例在此不做一一详述。可以理解,若音频播放器处于播放状态下,电子设备的图像采集器处于关闭状态,可以向图像采集器发送图像采集指令,控制图像采集器进入拍摄状态(即图像采集状态),且控制图像采集器的图像采集方向朝向使用者的面部后,对使用者进行图像采集,得到使用者的视频数据。
之后,通过对使用者的嘴部轮廓变化信息进行分析,可以确定使用者是否说话,即确定使用者是处于语音输入状态,还是处于未输入语音状态,实现过程不做详述。通常情况下,若通过对嘴部轮廓变化信息,确定嘴部轮廓变化符合发出有效音频产生的嘴部轮廓变化条件,可以认为使用者是处于语音输入状态;反之若嘴部轮廓未改变或变化形状固定等,导致不符合发出有效音频产生的嘴部轮廓变化条件,可以认为使用者处于未输入语音状态,但并不局限于这种分析实现方法。
在本申请提出的又一些实施例中,由于使用者发言过程中,其面部表情通常会随着发言内容的变化而改变,所以,为了提高使用者的语音状态(即语音输入状态或未输入语音状态)的检测准确性,本申请实施例除了获取嘴部轮廓变化信息外,还可以获得使用者的面部区域的表情变化,由此综合确定使用者是否处于语音输入状态,实现过程不做详述。
步骤S94,至少基于该语音状态控制音频播放器的播放参数。
关于步骤S94的实现过程可以参照上文实施例相应部分的描述,本实施例不做赘述。
示例性的,如图10所示,按照上文描述的方法,电子设备的音频播放器的驱动,确定使用者正在说话即处于语音输入状态,且音频采集器处于采集状态,为了避免播放音频对使用者音频覆盖,影响后续处理效果,该驱动可以控制音频播放器处于第一播放参数,如降低音频播放器的音量;反之,若确定使用者处于未输入语音状态,即使音频采集器处于采集状态,也可以不用调整音频播放器的播放参数,使其维持在第二播放参数,保证使用者能够可靠听到播放音频内容。
可选的,按照上文描述的方法,确定需要调整音频播放器的播放参数的情况下,电子设备也可以通过文本或指示灯等输出方式,输出相应的播放参数调整提示信息,提醒使用者降低或增大音频播放器的音量,本申请对这种提示实现方法不做限制。
在本申请提出的又一些实施例中,为了确定使用者的语音状态,在检测使用者的嘴部轮廓变化信息时,还可以利用电子设备配置的如红外或超声波或Tof传感器等目标传感器所采集到的参数信息实现,为了方便描述,可以将这类传感器记为距离传感器,在实际应用中,根据需要,可以配置多个距离传感器呈阵列或其他规则方式部署,在确定音频播放器处于播放状态下,可以获取这多个距离传感器各自采集到的参数信息(如感应距离参数),即表征相应距离传感器与其检测方向上的位置点(如使用者身体上的位置点,可以是嘴部区域内的位置点)之间的距离值,之后,可以至少基于所获得的这些参数信息,获得使用者的嘴部轮廓变化信息,实现过程本申请不做详述。
需要说明,为了提高嘴部动作检测可靠性和准确性,可以依据距离传感器感应到的参数信息或其他位置标识,提示使用者调整其嘴部与距离传感器之间的相对位置,以保证距离传感器的距离感应范围至少包括使用者的嘴部区域,提示调整实现方法本申请不作限制,可视情况而定。
关于获得嘴部轮廓变化信息后,确定使用者的语音状态,甚至是据此对音频播放器的播放参数的控制,可以参照上文实施例相应部分的描述,本实施例在此不做赘述。在一些实施例中,本申请也可以将综合上述两种嘴部轮廓变化信息检测结果,确定使用者语音状态,可视情况而定。
在本申请提出的又一些实施例中,为了确定使用者的语音状态,本申请还可以基于电子设备的音频采集器采集到的音频,与电子设备的使用者的预设声纹信息的比对结果,来确定使用者的语音状态。也就是说,在使用者使用电子设备进行语音通信之前,可以在音频播放器处于静音状态下,通过音频采集器采集使用者的音频,并对其进行声纹特征提取,获得该使用者的预设声纹信息后存储。当然,也可以从其他渠道获得该使用者的预设声纹信息,本申请对其获取方法不做限制。
之后,在确定电子设备的音频播放器处于播放状态下,可以获取音频采集器所采集到的音频,提取其包含的声纹信息,将其与使用者的预设声纹信息进行比较,若采集到的音频的声纹信息与预设声纹信息之间的相似度大于相似阈值,可以认为使用者处于语音输入状态;反之,若该相似度小于或等于该相似阈值,可以认为使用者处于未输入语音状态。对于上文声纹特征提取及声纹比对等实现方法,可以选择合适的人工智能技术实现,本申请对此不做限制。
可选的,本申请可以预先构建声纹识别模型,将音频采集器所采集到的音频输入该声纹识别模型,输出采集到的音频中是否包含使用者的音频,由此确定使用者的语音状态。其中,该声纹识别模型可以基于人工智能技术中的声纹识别算法、机器学习算法/深度学习算法等,对样本音频进行训练得到,本申请对声纹识别模型的训练实现方法不做限制。为了提高声纹识别模型输出结果的可靠性,在训练过程中,可以考虑同一用户使用不同音量、音色、语速等语音输入信息得到的样本音频,从而更精准识别出各发声者,实现过程不做详述。
在又一些实施中,可以在使用者需要说话即将要进入语音输入状态时,才打开电子设备的音频采集器;若使用者不需要说明,可以关闭音频采集器,从而避免使用者不说话时,电子设备对音频采集器所采集的噪声进行过滤处理所产生的资源消耗等。基于此,本申请为了确定使用者的语音状态,可以基于作用于电子设备的控件(如用于调整音频采集器的工作状态的控件图标或物理控制键等)的操作(如开、关、录入、不录入等)或状态,判断使用者是否处于语音输入状态,即确定电子设备使用者的语音状态。
在本实施例实际应用中,如在视频会议等各语音通信场景下,电子设备的使用者需要进行发言,可以触发如上控件,通过产生的针对音频采集器的启动指令或录入指令,控制音频采集器进入音频采集状态,同时,可以认为使用者处于语音输入状态,可以按照上文描述的方式控制音频播放器的播放参数;反之,若使用者不再说话,可以触发上述控件,产生针对音频采集器的关闭指令或静音指令(即不录入指令),由此控制音频采集器处于不采集音频状态,可以是静音状态,此时可以认为使用者处于未输入语音状态,可以按照上述方法对应控制音频播放器的播放参数,且这种情况下,音频采集器也不会采集音频播放器所播放的音频,电子设备将不向其通信端输出音频。
其中,关于对上述控件的操作的检测方法,可以通过基于该操作产生的触发信号确定,也可以通过检测音频采集器的工作状态,或该控件的状态等方式,来确定对控件的操作,也即确定对音频采集器的控制操作,由此判断使用者的语音状态。本申请对控件操作或上述状态的检测实现方法不做限制。
基于上文各实施例的描述,在执行各实施例提供的信号处理方法过程中,按照如上文各实施例描述的对应方法,确定使用者处于语音输入状态的情况下,为了从根源上解决此时音频播放器进行音频播放,所播放音频对使用者输出的音频造成干扰,本申请可以控制音频播放器处于静音状态。当然,此时若使用者需要得知播放音频内容,可以将音频播放器的待播放音频转换为文本信息,如采用语音识别、机器学习等人工智能技术实现,可选的,调取预训练的音频转换文本的转换模型,将获得的音频播放器的待播放音频(如通信端发送的音频)输入该转换模型,获得对应的文本信息,即音频内容。
之后,电子设备可以通过显示屏输出该文本信息,如弹出文本提示窗口呈现该文本信息,或者在该待播放音频的来源对应界面(如多方视频会议中,对应发言人的会议界面等)呈现该文本信息等,以使本电子设备使用者能够通过查看该文本信息做出反馈,提高语音通信效率和质量,实现过程本申请不做详述。
按照上文描述的检测方法,如果确定使用者从语音输入状态切换到未输入语音状态,即当前使用者处于未输入语音状态,可以控制音频播放器从静音状态切换到播放状态,满足使用者收听播放音频的通信需求,这种情况下,可以控制音频播放器处于第二播放参数,或默认的其他播放参数,保证使用者可靠听到音频播放器所播放音频的内容,关于音频播放器的控制实现过程,可以参照上文实施例的描述,本实施例不做赘述。
在本申请提出的又一些实施例中,对于上文各实施例描述的音频播放器的音频播放参数的控制过程,如确定使用者处于语音输入状态下,对音频播放器的播放参数的控制过程,可以是对上述第一播放参数、第三播放参数、第四播放参数和/或第五播放参数的控制过程的细化处理。
在音频播放器处于播放状态,使用者处于语音输入状态的情况下,本实施例可以在调整音频播放器的播放参数为对应的第一播放参数或第三播放参数或第四播放参数或第五播放参数之前,可以先检测音频播放器的当前播放参数是否需要调整。因此,本申请可以确定用于指示音频播放器所播放的音频会干扰使用者的音频,导致后续对采集到的音频的处理结果(如回声消除结果)无法满足处理要求时,该音频播放器的播放参数至少达到的参数阈值。
基于此,在实际应用中,可以直接获取针对音频播放器的当前播放参数的参数阈值,将当前播放参数与参数阈值进行比较,如果当前播放参数达到参数阈值,可以将音频播放器的当前播放参数调整为对应的预设播放参数(在如上文不同实施例描述的其他播放参数的控制实现过程中,该预设播放参数可以对应为第一播放参数或第三播放参数或第四播放参数或第五播放参数等,可视情况确定);如果当前播放参数未达到参数阈值,可以将当前播放参数确定为该预设播放参数,控制音频播放器维持该预设播放参数不变,也就是说,在使用者处于语音输入状态下,音频播放器按照当前播放参数进行音频播放,后续对音频采集器所采集到的音频进行对应处理,处理效果能够达到对应的处理要求,如图1下边附图所示场景,无需对音频播放器的当前播放参数进行调整,减少了处理步骤。
其中,上述参数阈值可以是预先配置的数值(其大小可以通过试验确定,本申请不做限制),可以直接调用;也可以在线配置,以提高处理可靠性,如基于使用者在音频播放器处于静音状态下采集到的音频的音频属性值,确定该参数阈值,这样可以针对当前阶段使用者说话的音量、语速、音色等音频属性值,适应性配置参数阈值,以使得参数阈值更符合当前阶段的音频处理效果监控,从而提高信号处理可靠性。关于上述参数阈值的获取方法包括但并不局限于上文描述的两种实现方法,可以依据场景需求确定。
可选的,按照上文描述的方法,将音频播放器的当前播放参数调整为预设播放参数之后,如果检测到使用者从语音输入状态切换到未输入语音状态,将音频播放器的预设播放参数恢复调整前的播放参数,如从第一播放参数调整为第二播放参数或默认播放参数等,可以依据应用场景对播放参数的具体控制方法确定,本申请不做一一举例详述。
综上所述,以多方视频会议场景为例进行说明,对于参与视频会议的任一电子设备及其使用者来说,在整个视频会议过程中,电子设备可以同步播放视频会议的音频,若有多个用户发言,对于其中任一用户的电子设备来说,其不仅会播放各用户发言的音频,同时还需要采集本地用户发言的音频,而在音频采集过程中,如图1上边附图所示场景,若本地电子设备的扬声器音量过大,将会导致本用户的声音被扬声器播放的声音淹没,导致电子设备进行回声消除时,将本地用户的音频与回声一起被消除,进而使得参与会议的其他用户无法听到本用户的发言内容。
针对这种情况下,本申请将通过图像分析、声纹识别、控件监控等任一种或多种组合方式,在扬声器播放音频期间,监控本地用户的嘴部轮廓变化信息,来确定本地用户是否在讲话,如果本地用户在讲话发言,可以通知扬声器驱动自动调低扬声器的音量,如图1下边附图所示场景,保证本地用户的声音不会被扬声器播放声音淹没,后续回声消除处理时,可以可靠过滤扬声器播放音频,保留本地用户发言的音频,将其发送至参与视频会议的其他电子设备进行播放,保证其他用户可以听到本地用户发言内容。可以理解,对于参与视频会议的任一电子设备,都可以按照本申请提出的信号处理方法执行,保证语音通信质量,当然对于其他语音通信应用场景,信号处理方法的实现过程类似,本申请不再举例详述。
参照图11,为本申请提出的信号处理装置的一可选示例的结构示意图,该装置可以包括:
语音状态获得模块111,用于在电子设备的音频播放器处于播放状态的情况下,获得所述电子设备的使用者的语音状态;
播放参数控制模块112,用于至少基于所述语音状态控制所述音频播放器的播放参数;
其中,所述播放参数至少用于电子设备对其音频采集器采集到的音频做对应处理。
在一些实施例中,上述播放参数控制模块112可以包括:
第一控制单元,用于如果所述使用者处于语音输入状态,控制所述音频播放器处于第一播放参数;且/或,
第二控制单元,用于如果所述使用者处于未输入语音状态,控制所述音频播放器处于第二播放参数;
其中,所述音频播放器在所述第二播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值。
在又一些实施例中,上述播放参数控制模块112可以包括:
第三控制单元,用于如果所述使用者处于语音输入状态、且所述电子设备处于第一形态,控制所述音频播放器处于第一播放参数;或,
第四控制单元,用于如果所述使用者处于语音输入状态、且所述电子设备处于第二形态,控制所述音频播放器处于第三播放参数;或,
第五控制单元,用于如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第一位置关系,控制所述音频播放器处于第四播放参数;或,
第六控制单元,用于如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第二位置关系,控制所述音频播放器处于第五播放参数;
其中,所述音频播放器在所述第三播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值,所述音频播放器在所述第五播放参数下输出的信号能量值高于在所述第四播放参数下的信号能量值。
基于上文各实施例的描述,上述信号处理装置还可以包括:
音频处理模块,用于对所述音频采集器采集到的音频做对应处理,以使得所述电子设备向通信端输出第一音频,或在所述使用者处于未输入语音状态时,所述电子设备不输出所述音频采集器所采集的音频;
其中,所述第一音频不包括所述音频采集器采集的所述音频播放器播放的音频。
在又一些实施例中,上述语音状态获得模块111可以包括:
参数信息获取单元,用于获取电子设备的目标传感器采集到的参数信息;嘴部轮廓变化信息获得单元,用于至少基于该参数信息,获得所述使用者的嘴部轮廓变化信息;
第一确定单元,用于利用嘴部轮廓变化信息,确定所述使用者的语音状态;或,
第二确定单元,用于基于作用于所述电子设备的控件的操作或状态,确定所述电子设备的使用者的语音状态;或,
声纹信息比对单元,用于将所述电子设备的音频采集器采集到的音频,与所述电子设备的使用者的预设声纹信息进行比对,得到比对结果;
第三确定单元,用于基于该比对结果,确定所述使用者的语音状态。
基于上文各实施例的描述,上述装置还可以包括:
文本信息获得模块,用于如果所述使用者处于语音输入状态,控制所述音频播放器处于静音状态,将所述音频播放器的待播放音频转换为文本信息;
文本信息输出模块,用于输出所述文本信息;
播放状态切换模块,用于如果所述使用者处于未输入语音状态,控制所述音频播放器从所述静音状态切换到所述播放状态。
在又一些实施例中,上述播放参数控制模块112可以包括:
参数阈值获取单元,用于在使用者处于语音输入状态下,获取针对所述音频播放器的当前播放参数的参数阈值;其中,所述参数阈值是预先配置的数值;或基于所述使用者在所述音频播放器处于静音状态下采集到的音频的音频属性值所确定;
播放参数调整单元,用于如果所述当前播放参数达到参数阈值,将所述音频播放器的当前播放参数调整为预设播放参数;所述预设播放参数为第一播放参数或第三播放参数或第四播放参数或第五播放参数;且/或,
播放参数维持单元,用于如果所述当前播放参数未达到所述参数阈值,将所述当前播放参数确定为所述预设播放参数,控制所述音频播放器维持所述预设播放参数不变。
可选的,上述播放参数控制模块112还可以包括:
播放参数恢复控制单元,用于如果所述使用者从所述语音输入状态切换到未输入语音状态,将所述音频播放器的所述预设播放参数恢复调整前的播放参数。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请还提供了一种计算机可读存储介质,其上可以存储计算机可读指令,该计算机可读指令可以被处理器调用并加载,以实现上述实施例描述的信号处理方法的各个步骤。
最后,需要说明的是,关于上述各实施例中,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
本申请涉及到的术语诸如“第一”、“第二”等仅用于描述目的,用来将一个操作、单元或模块与另一个操作、单元或模块区分开来,而不一定要求或者暗示这些单元、操作或模块之间存在任何这种实际的关系或者顺序。且不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、电子设备而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种信号处理方法,包括:
在电子设备的音频播放器处于播放状态的情况下,获得所述电子设备的使用者的语音状态;
至少基于所述语音状态控制所述音频播放器的播放参数;
其中,所述播放参数至少用于电子设备对其音频采集器采集到的音频做对应处理。
2.根据权利要求1所述的方法,其中,至少基于所述语音状态控制所述音频播放器的播放参数,包括:
如果所述使用者处于语音输入状态,控制所述音频播放器处于第一播放参数;且/或,
如果所述使用者处于未输入语音状态,控制所述音频播放器处于第二播放参数;
其中,所述音频播放器在所述第二播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值。
3.根据权利要求1所述的方法,其中,至少基于所述语音状态控制所述音频播放器的播放参数,包括:
如果所述使用者处于语音输入状态、且所述电子设备处于第一形态,控制所述音频播放器处于第一播放参数;或,
如果所述使用者处于语音输入状态、且所述电子设备处于第二形态,控制所述音频播放器处于第三播放参数;或,
如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第一位置关系,控制所述音频播放器处于第四播放参数;或,
如果所述使用者处于语音输入状态、且所述使用者与所述电子设备之间处于第二位置关系,控制所述音频播放器处于第五播放参数;
其中,所述音频播放器在所述第三播放参数下输出的信号能量值高于在所述第一播放参数下的信号能量值,所述音频播放器在所述第五播放参数下输出的信号能量值高于在所述第四播放参数下的信号能量值。
4.根据权利要求1至3任一项所述的方法,其中,还包括:
对所述音频采集器采集到的音频做对应处理,以使得所述电子设备向通信端输出第一音频,或在所述使用者处于未输入语音状态时,所述电子设备不输出所述音频采集器所采集的音频;
其中,所述第一音频不包括所述音频采集器采集的所述音频播放器播放的音频。
5.根据权利要求1至3任一项所述的方法,所述获得所述电子设备的使用者的语音状态,包括:
至少基于所述电子设备的目标传感器采集到的参数信息,获得所述使用者的嘴部轮廓变化信息,利用所述嘴部轮廓变化信息,确定所述使用者的语音状态;或,
基于作用于所述电子设备的控件的操作或状态,确定所述电子设备的使用者的语音状态;或,
基于所述电子设备的音频采集器采集到的音频,与所述电子设备的使用者的预设声纹信息的比对结果,确定所述使用者的语音状态。
6.根据权利要求1至3任一项所述的方法,还包括:
如果所述使用者处于语音输入状态,控制所述音频播放器处于静音状态,将所述音频播放器的待播放音频转换为文本信息;
输出所述文本信息;
如果所述使用者处于未输入语音状态,控制所述音频播放器从所述静音状态切换到所述播放状态。
7.根据权利要求1至3任一项所述的方法,在所述使用者处于语音输入状态下,控制所述音频播放器的播放参数的实现过程包括:
获取针对所述音频播放器的当前播放参数的参数阈值;其中,所述参数阈值是预先配置的数值,或基于所述使用者在所述音频播放器处于静音状态下采集到的音频的音频属性值所确定;
如果所述当前播放参数达到参数阈值,将所述音频播放器的当前播放参数调整为预设播放参数;所述预设播放参数为第一播放参数或第三播放参数或第四播放参数或第五播放参数;且/或,
如果所述当前播放参数未达到所述参数阈值,将所述当前播放参数确定为所述预设播放参数,控制所述音频播放器维持所述预设播放参数不变。
8.根据权利要求7所述的方法,在所述将所述音频播放器的当前播放参数调整为预设播放参数之后,控制所述音频播放器的播放参数的实现过程还包括:
如果所述使用者从所述语音输入状态切换到未输入语音状态,将所述音频播放器的所述预设播放参数恢复调整前的播放参数。
9.一种信号处理装置,所述装置包括:
语音状态获得模块,用于在电子设备的音频播放器处于播放状态的情况下,获得所述电子设备的使用者的语音状态;
播放参数控制模块,用于至少基于所述语音状态控制所述音频播放器的播放参数;
其中,所述播放参数至少用于电子设备对其音频采集器采集到的音频做对应处理。
10.一种电子设备,所述电子设备包括:
音频采集器;音频播放器;通信接口;
存储器,用于存储实现如权利要求1-8任一项所述的信号处理方法的程序;
处理器,用于加载执行所述存储器存储的所述程序,以实现如权利要求1-8任一项所述的信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042604.7A CN114171039A (zh) | 2022-01-14 | 2022-01-14 | 信号处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042604.7A CN114171039A (zh) | 2022-01-14 | 2022-01-14 | 信号处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114171039A true CN114171039A (zh) | 2022-03-11 |
Family
ID=80489298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210042604.7A Pending CN114171039A (zh) | 2022-01-14 | 2022-01-14 | 信号处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114171039A (zh) |
-
2022
- 2022-01-14 CN CN202210042604.7A patent/CN114171039A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US11929088B2 (en) | Input/output mode control for audio processing | |
CN110970057B (zh) | 一种声音处理方法、装置与设备 | |
JP7348288B2 (ja) | 音声対話の方法、装置、及びシステム | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US10178490B1 (en) | Intelligent audio rendering for video recording | |
US11437021B2 (en) | Processing audio signals | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
JP2020115206A (ja) | システム及び方法 | |
JP2009518880A (ja) | エコー除去の構成 | |
CN108363557A (zh) | 人机交互方法、装置、计算机设备和存储介质 | |
US10461712B1 (en) | Automatic volume leveling | |
JP2012186622A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN109361995B (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
CN113676592B (zh) | 录音方法、装置、电子设备及计算机可读介质 | |
US20240096343A1 (en) | Voice quality enhancement method and related device | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
US20170148438A1 (en) | Input/output mode control for audio processing | |
WO2017166495A1 (zh) | 一种语音信号处理方法及装置 | |
CN110392334A (zh) | 一种麦克风阵列音频信号自适应处理方法、装置及介质 | |
JP3838159B2 (ja) | 音声認識対話装置およびプログラム | |
CN114171039A (zh) | 信号处理方法、装置及电子设备 | |
US11875800B2 (en) | Talker prediction method, talker prediction device, and communication system | |
CN114598963A (zh) | 语音处理的方法、装置、计算机可读存储介质及电子设备 | |
CN112885323A (zh) | 音频信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |