CN108091330B - 输出声强调节方法、装置、电子设备及存储介质 - Google Patents

输出声强调节方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108091330B
CN108091330B CN201711324342.9A CN201711324342A CN108091330B CN 108091330 B CN108091330 B CN 108091330B CN 201711324342 A CN201711324342 A CN 201711324342A CN 108091330 B CN108091330 B CN 108091330B
Authority
CN
China
Prior art keywords
sound intensity
signal
voice
input signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711324342.9A
Other languages
English (en)
Other versions
CN108091330A (zh
Inventor
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201711324342.9A priority Critical patent/CN108091330B/zh
Publication of CN108091330A publication Critical patent/CN108091330A/zh
Application granted granted Critical
Publication of CN108091330B publication Critical patent/CN108091330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开实施例提供了一种输出声强调节方法、装置、电子设备及存储介质,涉及音频处理技术领域,所述方法包括:采集外部声源的语音输入信号;计算所述语音输入信号的输入声强;根据所述输入声强确定输出声强;根据所述输出声强播放语音输出信号。本公开达到了根据语音输入信号的声强大小,确定语音输出信号的声强大小的技术效果,即可以动态调整智能音箱播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过物理按键或者遥控器调节声强的繁琐操作。

Description

输出声强调节方法、装置、电子设备及存储介质
技术领域
本公开涉及音频处理技术领域,特别涉及一种输出声强调节方法、装置、电子设备及存储介质。
背景技术
智能音箱是一种集听音乐、听相声、听百科以及控制家电等多种功能为一体的电子设备。与传统的音箱相比,智能音箱主要通过语音控制来实现人机交互。
以通过智能音箱进行家电控制为例,用户对智能音箱说出“打开热水器”,智能音箱在通过家庭网关控制热水器进入工作状态后,智能音箱以预设的音量播放语音信号“已打开热水器”。该预设的音量可以由用户事先按压遥控器或者物理按键来调大或调小。
发明内容
本公开实施例提供了一种输出声强调节方法及装置,可以解决智能音箱的音量调节较为繁琐的问题。所述技术方案如下:
根据本公开的第一方面,提供了一种输出声强调节方法,所述方法包括:
采集外部声源的语音输入信号;
计算所述语音输入信号的输入声强;
根据所述输入声强确定输出声强;
根据所述输出声强播放语音输出信号。
在一个可选的实施例中,所述根据所述输入声强确定输出声强,包括:
根据所述语音输入信号确定距离参数,所述距离参数用于表征与所述外部声源之间的距离;
根据所述输入声强和所述距离参数,确定所述输出声强。
在一个可选的实施例中,所述距离参数包括:空气衰减值;
所述根据所述语音输入信号确定距离参数,包括:
估算所述语音输入信号的空气衰减值;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
根据所述输入声强和所述空气衰减值,确定所述输出声强。
在一个可选的实施例中,所述距离参数包括:所述语音输入信号的频率;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
检测所述语音输入信号的频率是否大于第一频率阈值;
当所述语音输入信号的频率大于所述第一频率阈值时,估算所述语音输入信号的空气衰减值;
根据所述输入声强和所述空气衰减值,确定所述输出声强。
在一个可选的实施例中,所述距离参数包括:所述语音输入信号的频率;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
检测所述语音输入信号的频率是否小于第二频率阈值;
当所述语音输入信号的频率小于第二频率阈值时,将预设声强设定为所述输出声强;或,当所述语音输入信号的频率小于所述第二频率阈值时,将所述输入声强与预设衰减声强的差,确定为所述输出声强。
在一个可选的实施例中,所述估算所述语音输入信号的空气衰减值,包括:
分离所述语音输入信号中的直达声音信号和首次回声信号;
根据所述直达声音信号的振幅和频率,计算所述直达声音信号的第一声强;
根据所述首次回声信号的振幅和频率,计算所述首次回声信号的第二声强;
根据所述第一声强、所述第二声强和预设的反射介质衰减值,计算所述空气衰减值。
在一个可选的实施例中,所述根据所述输入声强和所述空气衰减值,确定所述输出声强,包括:
计算所述空气衰减值与预设放大系数α的乘积;
将所述输入声强和所述乘积之和,确定为所述输出声强。
在一个可选的实施例中,所述计算所述空气衰减值与预设放大系数α的乘积之前,还包括:
采集外部声源的语音初始化信号;
根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,n为正整数;
按照n个所述候选输出声强分别播放初始化反馈信号;
接收对按照第i个候选输出声强播放的所述初始化反馈信号的确认信号,将所述第i个候选输出声强对应的所述候选放大系数确定为所述预设放大系数α,1≤i≤n。
在一个可选的实施例中,所述根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,包括:
计算所述语音初始化信号的输入声强;
估算所述语音初始化信号的空气衰减值;
将所述语音初始化信号的空气衰减值与n个候选放大系数α相乘,得到n个乘积;
将所述语音初始化信号的输入声强和n个所述乘积分别相加,得到所述n个候选输出声强。
在一个可选的实施例中,所述计算所述空气衰减值与预设放大系数α的乘积之前,还包括:
根据所述空气衰减值计算与所述外部声源之间的距离;
确定与所述距离对应的预设放大系数α。
在一个可选的实施例中,所述方法,还包括:
检测所述语音输入信号是否为语音控制信号;
当所述语音输入信号是所述语音控制信号时,执行所述计算所述语音输入信号的输入声强步骤;
所述根据所述输出声强播放语音输出信号,包括:
执行所述语音控制信号对应的操作指令;
根据所述输出声强播放语音反馈信号,所述语音反馈信号用于反馈所述操作指令的执行结果。
根据本公开的第二方面,提供了一种输出声强调节装置,所述装置包括:
采集模块,被配置为采集外部声源的语音输入信号;
计算模块,被配置为计算所述语音输入信号的输入声强;
确定模块,被配置为根据所述输入声强确定输出声强;
播放模块,被配置为根据所述输出声强播放语音输出信号。
在一个可选的实施例中,所述确定模块,还被配置为根据所述语音输入信号确定距离参数,所述距离参数用于表征与所述外部声源之间的距离;
所述确定模块,还被配置为根据所述输入声强和所述距离参数,确定所述输出声强。
在一个可选的实施例中,所述计算模块,还被配置为估算所述语音输入信号的空气衰减值;
所述确定模块,还被配置为根据所述输入声强和所述空气衰减值,确定所述输出声强。
在一个可选的实施例中,所述确定模块,包括:
检测单元,被配置为检测所述语音输入信号的频率是否大于第一频率阈值;
所述计算模块,还被配置为当所述语音输入信号的频率大于所述第一频率阈值时,估算所述语音输入信号的空气衰减值;
所述确定模块,还被配置为根据所述输入声强和所述空气衰减值,确定所述输出声强。
在一个可选的实施例中,所述确定模块,包括:
检测单元,被配置为检测所述语音输入信号的频率是否小于第二频率阈值;
确定单元,被配置为当所述语音输入信号的频率小于第二频率阈值时,将预设声强设定为所述输出声强;
所述确定单元,还被配置为当所述语音输入信号的频率小于所述第二频率阈值时,将所述输入声强与预设衰减声强的差,确定为所述输出声强。
在一个可选的实施例中,所述计算模块,包括:
分离单元,被配置为分离所述语音输入信号中的直达声音信号和首次回声信号;
第一计算单元,被配置为根据所述直达声音信号的振幅和频率,计算所述直达声音信号的第一声强;
所述第一计算单元,还被配置为根据所述首次回声信号的振幅和频率,计算所述首次回声信号的第二声强;
所述第一计算单元,还被配置为根据所述第一声强、所述第二声强和预设的反射介质衰减值,计算所述空气衰减值。
在一个可选的实施例中,所述确定模块,还被配置为计算所述空气衰减值与预设放大系数α的乘积;将所述输入声强和所述乘积之和,确定为所述输出声强。
在一个可选的实施例中,所述所述采集模块,被配置为采集外部声源的语音初始化信号;
所述确定模块,还被配置为根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,n为正整数;
所述装置,还包括:
播放模块,被配置为按照n个所述候选输出声强分别播放初始化反馈信号;
接收模块,被配置为接收对按照第i个候选输出声强播放的所述初始化反馈信号的确认信号,将所述第i个候选输出声强对应的所述候选放大系数确定为所述预设放大系数α,1≤i≤n。
在一个可选的实施例中,所述确定模块,还包括:
第二计算单元,被配置为计算所述语音初始化信号的输入声强;
所述第二计算单元,还被配置为估算所述语音初始化信号的空气衰减值;
所述第二计算单元,还被配置为将所述语音初始化信号的空气衰减值与n个候选放大系数α相乘,得到n个乘积;
所述第二计算单元,还被配置为将所述语音初始化信号的输入声强和n个所述乘积分别相加,得到所述n个候选输出声强。
在一个可选的实施例中,所述计算模块,还被配置为根据所述空气衰减值计算与所述外部声源之间的距离;
所述确定模块,还被配置为确定与所述距离对应的预设放大系数α。
在一个可选的实施例中,所述检测模块,还被配置为检测所述语音输入信号是否为语音控制信号;
所述计算模块,还被配置为当所述语音输入信号是所述语音控制信号时,执行所述计算所述语音输入信号的输入声强步骤;
所述播放模块,还包括:
执行单元,被配置为执行所述语音控制信号对应的操作指令;
所述播放模块,还被配置为根据所述输出声强播放语音反馈信号,所述语音反馈信号用于反馈所述操作指令的执行结果。
根据本公开的第三方面,提供了一种电子设备,所述电子设备包括麦克风、扬声器、处理器以及存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述本公开的第一方面及其可选实施例中任一所述的输出声强调节方法。
在一个可选的实施例中,所述电子设备为智能音箱。
根据本公开的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述本公开的第一方面及其可选实施例中任一所述的输出声强调节方法。
本公开实施例提供的技术方案的有益效果至少包括:
通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是本公开一个示例性的实施例提供的输出声强调节方法的应用场景示意图;
图2是本公开一个示例性的实施例提供的输出声强调节方法的流程图;
图3是本公开另一个示例性的实施例提供的输出声强调节方法的流程图;
图4是本公开另一个示例性的实施例提供的输出声强调节方法的流程图;
图5是本公开另一个示例性的实施例提供的输出声强调节方法的应用场景示意图;
图6是本公开另一个示例性的实施例提供的输出声强调节方法的流程图;
图7是本公开另一个示例性的实施例提供的输出声强调节方法的应用场景示意图;
图8是本公开另一个示例性的实施例提供的输出声强调节方法的应用场景示意图;
图9是本公开另一个示例性的实施例提供的输出声强调节方法的流程图;
图10是本公开一个示例性的实施例提供的输出声强调节装置的结构框图;
图11是本公开一个示例性的实施例提供的电子设备的结构框图;
图12是本公开一个示例性的实施例提供的智能音箱的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本公开涉及的若干个名词进行介绍:
电子设备:包括处理器、存储器、麦克风和扬声器的设备。典型的,电子设备是智能音箱。其中,麦克风用于采集环境中的语音信号,扬声器用于对环境输出语音信号。该智能音箱是一种集听音乐、听相声、听百科以及控制家电等多种功能为一体的设备。
可选地,本公开实施例以输出声强调节方法应用在智能音箱中进行举例说明。但在实际操作中,该输出声强调节方法还可以应用于内置有麦克风和扬声器的其他电子设备中,如:手机、电视机、笔记本电脑、台式机、电话机等。该输出声强调节方法还可以应用于可以通过外接方式连接有麦克风和扬声器的电子设备上,如:可以外接麦克风和扬声器的台式电脑、可以外接麦克风和扬声器的笔记本电脑、可以外接麦克风和耳机的平板电脑等,本公开实施例对此不加以限定。
声强:是用于量化声音的强弱的一个物理量,通常使用分贝(decibel,dB)作为声强的单位。人对声音的强弱的感知与声强的大小为正相关关系,即在其他条件(如:传播介质、发声物体等)不变的情况下,声强越大,人能感知的声音越强。可选地,该正相关关系并非简单的线性关系,而是呈对数关系。
语音输入信号:语音输入信号是指输入至电子设备的语音信号,该语音输入信号包括但不限于:语音控制信号、语音交互信号等。其中,语音控制信号用于对电子设备以及与电子设备关联的其它设备进行功能控制,如:“打开热水器”;语音交互信号用于与电子设备以语音形式进行人机对话,如:“当前空气湿度是多少?”。
语音输出信号:是电子设备根据用户的语音输入信号或者预设的待操作事项,向周围环境输出的语音信号。该语音输出信号可以是语音反馈信号,也可以是语音提醒信号等。其中,语音反馈信号是针对语音输入信号进行反馈的语音信号,如:“已打开热水器”,语音提醒信号是智能音箱根据预设的待操作事项进行提醒的语音信号,如:“当前空气湿度已达到百分之60”;本公开实施例中主要针对语音反馈信号进行说明。
空气衰减值:是指语音信号在无障碍物阻挡的空气中传播时,从开始传播到传播结束,声强的减弱程度。通常,空气衰减值与声音的传播距离呈正相关关系。
直达声音信号:语音输入信号在传播中可以分为直达声音信号和回声信号,直达声音信号是指从声源发声到电子设备接收到语音输入信号中,最早到达智能音箱的语音输入信号,通常,该直达声音信号在传播过程中并没有经过介质反射,或者经过了最少次的介质反射,如:墙体的反射。
首次回声信号:首次回声信号是指在直达声音信号到达智能音箱后,第二个到达该电子设备的语音输入信号,通常,该首次回声信号是经过一次墙体反射后到达该电子设备的语音输入信号。
反射介质衰减值:反射介质衰减值是指语音信号在传播过程中,经过介质反射前和经过介质反射后的声强衰减值。示意性的,语音信号在经过墙体反射之前,声强为44.5分贝(decibel,dB),经过墙体反射后,声强为44dB,则墙体反射介质衰减值为0.5dB。
下面,结合上述本公开涉及的若干个名词对本公开提供的输出声强调节方法进行说明。
图1是本公开一个示例性实施例提供的输出声强调节方法的应用场景示意图。如图1所示,该应用场景中包括:电子设备11、智能家居设备12以及通信网络13。
电子设备11用于与用户进行语音交互,可选地,该电子设备11包括麦克风和扬声器。比如,该电子设备11是智能音箱。用户可以与该电子设备11进行语音交互,也可以通过该电子设备11对智能家居设备12进行控制。
电子设备11和智能家居设备12通过通信网络13相连,该通信网络13可以是有线网络也可以是无线网络。
智能家居设备12是可以通过电子设备11进行控制的家居设备,示意性的,如图1所示,该智能家居设备12包括:智能电视121以及智能空调122,可选地,该智能家居设备12还可以包括热水器、空气净化器、扫地机器人等。
在一个示例性的场景中,用户对电子设备11发出语音控制信号“打开电视机”,电子设备11根据用户发出的语音控制信号生成控制指令,并通过通信网络13发送至电视机121,电视机121接收到控制指令后,进行启动操作。
图2是本公开一个示例性的实施例提供的输出声强调节方法的流程图,以该输出声强调节方法应用在如图1所示的电子设备11中为例,如图2所示,该方法包括:
步骤201,采集外部声源的语音输入信号。
可选地,电子设备包括麦克风,该麦克风用于对语音信号进行采集,电子设备通过该麦克风采集外部声源的语音输入信号。
步骤202,计算语音输入信号的输入声强。
可选地,电子设备对语音输入信号的振幅和频率进行检测,并根据语音输入信号的振幅和频率计算该语音输入信号的输入声强。
步骤203,根据输入声强确定输出声强。
可选地,在电子设备处测量得到的输入声强和在外部声源处测量得到的输出声强之间的差值小于阈值。假设外部声源是用户,则能够达到不论用户与电子设备的距离远近,用户自身说话的音量与听到的反馈语音的音量近似匹配。
可选地,根据输入声强确定输出声强的方式包括但不限于以下方式中的任意一种:
第一,将输入声强直接确定为输出声强。
第二,对语音输入信号的空气衰减值进行估算,并将输入声强与空气衰减值的和确定为输出声强。
第三,计算空气衰减值与预设系数的乘积,并将乘积与输入声强的和确定为输出声强;该预设系数可以由用户自定义。
第四,当用户与电子设备之间的距离较近时,以预设声强作为输出声强。
通常,该预设声强为小于输入声强的一个声强。
步骤204,根据输出声强播放语音输出信号。
可选地,电子设备还包括扬声器,电子设备通过该扬声器播放语音输出信号。
可选地,该语音输出信号是电子设备根据采集到的语音输入信号,生成的语音输出信号。示意性的,当语音输入信号为语音控制信号时,电子设备播放的是与语音控制信号对应的语音反馈信号。
该语音输出信号是以输出声强进行播放的语音信号。
综上所述,本实施例提供的输出声强调节方法,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。
图3是本公开另一个示例性的实施例提供的输出声强调节方法的流程图,以该输出声强调节方法应用在如图1所示的电子设备11中为例。本实施例中该电子设备11可以是智能音箱。如图3所示,该方法包括:
步骤301,采集外部声源的语音输入信号。
可选地,智能音箱包括麦克风,该麦克风用于对语音信号进行采集,智能音箱通过该麦克风采集外部声源的语音输入信号。
可选地,该语音输入信号可以是语音控制信号,该语音控制信号是用户发出的用于控制智能音箱,或者用于通过智能音箱控制其他设备的语音信号,如:用户说出的用于通过智能音箱控制智能家居设备的语音信号。
步骤302,计算语音输入信号的输入声强。
可选地,智能音箱对语音输入信号的振幅和频率进行检测,并根据语音输入信号的振幅和频率计算该语音输入信号的输入声强,示意性的,计算该输入声强的公式如下:
Figure BDA0001505351830000101
其中,I用于表示声强,p为空气介质密度,c为声音在空气介质中的传播速度其中,上述p的值通常为1.29kg/m3,c的值通常为340m/s,A为语音信号的振幅,ω为语音信号的传播角速度,其中,ω=2πf,f为频率。
将测量得到的语音输入信号的振幅和频率输入上述公式中,即可得到该语音输入信号的输入声强。
步骤303,根据语音输入信号确定距离参数。
可选地,该距离参数用于表征与外部声源之间的距离,可选地,该距离参数包括但不限于:空气衰减值、语音输入信号的频率等。
步骤304,根据输入声强和距离参数,确定输出声强。
可选地,当该距离参数包括空气衰减值时,确定输出声强的方式包括:将输入声强与空气衰减值的和确定为输出声强,或者,计算空气衰减值与预设系数的乘积,并将乘积与输入声强的和确定为输出声强;
当该距离参数包括语音输入信号的频率时,确定输出声强的方式还包括:判断该语音输入信号的频率是否大于第一频率阈值,当大于第一频率阈值时,根据空气衰减值以及输入声强确定输出声强;或者,判断该语音输入信号的频率是否小于第二频率阈值,当小于第二频率阈值时,将预设声强确定为输出声强;或者,判断该语音输入信号的频率是否小于第二频率阈值,当小于第二频率阈值时,将输入声强与预设衰减声强的差确定为输出声强。
步骤305,根据输出声强播放语音输出信号。
可选地,电子设备还包括扬声器,电子设备通过该扬声器播放语音输出信号。
可选地,该语音输出信号是电子设备根据采集到的语音输入信号,生成的语音输出信号。示意性的,当语音输入信号为语音控制信号时,电子设备播放的是与语音控制信号对应的语音反馈信号。
该语音输出信号是以输出声强进行播放的语音信号。
综上所述,本实施例提供的输出声强调节方法,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。
本实施例提供的输出声强调节方法,根据距离参数确定输出声强,对于不同的距离条件,采用不同的调整输出声强的方式,提高了自适应调节的准确度。
图4是本公开另一个示例性的实施例提供的输出声强调节方法的流程图,以该输出声强调节方法应用在如图1所示的电子设备11中为例。本实施例中该电子设备11可以是智能音箱。如图4所示,该方法包括:
步骤401,采集外部声源的语音输入信号。
可选地,智能音箱包括麦克风,该麦克风用于对语音信号进行采集,智能音箱通过该麦克风采集外部声源的语音输入信号。
可选地,该语音输入信号可以是语音控制信号,该语音控制信号是用户发出的用于控制智能音箱,或者用于通过智能音箱控制其他设备的语音信号,如:用户说出的用于通过智能音箱控制智能家居设备的语音信号。
可选地,智能音箱采集外部声源的语音输入信号之后,还包括:
检测该语音输入信号是否为语音控制信号,当该语音输入信号是语音控制信号时,执行如下步骤402。
步骤402,计算语音输入信号的输入声强。
可选地,智能音箱对语音输入信号的振幅和频率进行检测,并根据语音输入信号的振幅和频率计算该语音输入信号的输入声强。
步骤403,估算语音输入信号的空气衰减值。
可选地,可以通过如下步骤4031至步骤4034估算该语音输入信号的空气衰减值:
步骤4031,分离语音输入信号中的直达声音信号和首次回放信号;
语音输入信号在传播中可以分为直达声音信号和回声信号,回声信号按照到达时间可能会分为多个。直达声音信号是指从声源发声到智能音箱接收到语音输入信号的过程中,最早到达智能音箱的语音输入信号,通常,该直达声音信号在传播过程中并没有经过介质反射,或者经过了最少次的介质反射。首次回声信号是指在直达声音信号到达智能音箱后,第二个到达该智能音箱的语音输入信号,如:该语音输入信号经过一次墙体反射后第二个到达该智能音箱,即该第二个到达智能音箱的为首次回声信号。当然,还存在第二次回声信号、第三次回声信号、第四次回声信号,但本实施例中以考虑首次回声信号且忽略其它次回声信号来举例说明。
电子设备通过对语音输入信号进行音频分析,识别出相似声波段以及每个声波段之间的时间先后顺序和间隔,能够分离出直达声音信号和回声信号。
步骤4032,根据直达声音信号的振幅和频率,计算直达声音信号的第一声强;
可选地,电子设备将直达声音信号的振幅和频率输入步骤302中的声强计算公式,得到第一声强。该第一声强的计算方式可参考上述步骤302,在此不再赘述。
步骤4033,根据首次回声信号的振幅和频率,计算首次回声信号的第二声强;
可选地,电子设备将首次回声信号的振幅和频率输入步骤302中的声强计算公式,得到第二声强。该第二声强的计算方式可参考上述步骤302,在此不再赘述。
步骤4034,根据第一声强、第二声强和预设的反射介质衰减值,计算空气衰减值。
可选地,假设首次回声信号是经过一次反射的信号,则第一声强与第二声强之差等于反射介质衰减值和空气衰减值之和,即第二声强加上反射介质衰减值和空气衰减值,即为第一声强。
示意性的,该空气衰减值的计算公式如下:
IA-IB=LW+ΔL
其中,IA用于表示第一声强,IB用于表示第二声强,LW用于表示反射介质衰减值(比如墙体衰减值),ΔL即为空气衰减值。
示意性的,请结合图5,如图5所示,语音输入信号的传播环境中包括:智能音箱51、声源52以及墙体53,其中,该语音输入信号的传播路径包括直达声音信号的传播路径54以及首次回声信号的传播路径55,对该直达声音信号的声强和首次回声信号的声强进行计算得到IA和IB,并确认该墙体53的墙体衰减值LW,即可通过上述公式计算得到空气衰减值ΔL。
步骤404,根据输入声强和空气衰减值,确定输出声强。
可选地,根据输入声强和空气衰减值确定输出声强的方式,包括但不限于以下方式中的至少一种:
第一,将输入声强和空气衰减值之和,确定为输出声强;
以公式的形式对上述第一种方式进行表达如下:
I2=I1+ΔL
其中,I2为输出声强,I1为输入声强,ΔL即为空气衰减值。
第二,计算空气衰减值与预设放大系数α的乘积,并将输入声强和乘积之和确定为输出声强;
以公式的形式对上述第二种方式进行表达如下:
I2=I1+α×ΔL
其中,I2为输出声强,I1为输入声强,α为预设放大系数,ΔL即为空气衰减值。
可选地,上述预设放大系数可以是预先存储的,与语音输入信号的传播距离对应的放大系数,该对应关系参考下表一:
表一
距离(单位:米) 放大系数
7m-8m 1.8
8m-9m 2.2
9m以上 2.5
其中,传播距离(外部声源与智能音箱之间的距离)的计算方式可以参考如下过程:
检测直达声音信号和首次回放信号的时间差t,即直达声音信号输入智能音箱的时刻和首次回放信号输入智能音箱的时刻之间的时间差,并根据空气衰减值与该时间差t,计算传播距离,具体参考如下公式:
ΔL=20log10(r1/(r1+c×t))
其中,ΔL为空气衰减值,c为声音在空气介质中的传播速度,t为直达声音信号和首次回放信号的时间差,r1即为声源与智能音箱之间的距离。
步骤305,根据输出声强播放语音输出信号。
可选地,智能音箱还包括扬声器,智能音箱通过该扬声器播放语音输出信号。
可选地,该语音输出信号是智能音箱根据采集到的语音输入信号,生成的语音输出信号。示意性的,当语音输入信号为语音控制信号时,智能音箱播放的是与语音控制信号对应的语音反馈信号。
该语音输出信号是以输出声强进行播放的语音信号。
值得注意的是,当语音输入信号是语音控制信号时,上述语音输出信号可以是语音控制信号,终端执行语音控制信号对应的操作指令,并根据输出声强反馈语音反馈信号,该语音反馈信号用于反馈操作指令的执行结果。
综上所述,本实施例提供的输出声强调节方法,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。也即,能够达到不论用户与电子设备的距离远近,电子设备处测量得到的输入声强和在外部声源处测量得到的输出声强之间的差值小于阈值。
本实施例提供的输出声强调节方法,还通过对空气衰减值进行计算,并将空气衰减值和输入声强同时进行考虑,提高了计算得到的输出声强的准确度,进一步提高了输出声强相对于语音输入信号的声强的还原度。
可选地,本公开实施例中可以根据电子设备与外部声源之间的距离,采用不同的确定输出声强的方法,下面,对距离较远以及距离较近这两种不同的情况,分别进行说明,请参考图6。
图6是本公开另一个示例性的实施例提供的输出声强调节方法的流程图,以该输出声强调节方法应用在如图1所示的电子设备11中为例。本实施例中该电子设备11可以是智能音箱。如图6所示,该方法包括:
步骤601,采集外部声源的语音输入信号。
可选地,智能音箱包括麦克风,该麦克风用于对语音信号进行采集,智能音箱通过该麦克风采集外部声源的语音输入信号。
可选地,该语音输入信号可以是语音控制信号,该语音控制信号是用户发出的用于控制智能音箱,或者用于通过智能音箱控制其他设备的语音信号,如:用户发出的用于通过智能音箱控制智能家居设备的语音信号。
可选地,智能音箱采集外部声源的语音输入信号之后,还包括:
检测该语音输入信号是否为语音控制信号,当该语音输入信号是语音控制信号时,执行如下步骤602。
步骤602,计算语音输入信号的输入声强。
可选地,智能音箱对语音输入信号的振幅和频率进行检测,并根据语音输入信号的振幅和频率计算该语音输入信号的输入声强。
步骤603,根据语音输入信号确定距离参数。
可选地,该距离参数用于表征与外部声源之间的距离,可选地,该距离参数包括但不限于:空气衰减值、语音输入信号的频率等。
步骤604,检测语音输入信号的频率是否大于第一频率阈值。
可选地,当语音输入信号的传播距离较长时,该语音输入信号的频率相应也会较大,当语音输入信号的传播距离较短时,该语音输入信号的频率相应也会较小,通常,语音输入信号的频率为500赫兹(Hertz,Hz)至3000Hz,此时,该语音输入信号的传播距离通常为4至6米,当语音输入信号的频率大于3000Hz时,可以认为该语音输入信号的传播距离大于6米,示意性的,如图6所示,该语音输入信号的传播距离为7.5米时,该语音传播信号的频率大于3000Hz。
步骤605,当语音输入信号的频率大于第一频率阈值时,估算语音输入信号的空气衰减值。
可选地,该空气衰减值的计算过程请参考上述步骤4031至步骤4034,在此不再赘述。
步骤606,根据输入声强和空气衰减值,确定输出声强。
可选地,根据输入声强和空气衰减值确定输出声强的方式,包括但不限于以下方式中的至少一种:
第一,将输入声强和空气衰减值之和,确定为输出声强;
以公式的形式对上述第一种方式进行表达如下:
I2=I1+ΔL
其中,I2为输出声强,I1为输入声强,ΔL即为空气衰减值。
第二,计算空气衰减值与预设放大系数α的乘积,并将输入声强和乘积之和确定为输出声强;
其中,该预设放大系数为智能音箱中预先存储的,与传播距离对应的放大系数,电子设备根据空气衰减值计算与外部声源之间的距离(即语音输入信号的传播距离),并确定与该距离对应的预设放大系数α。
其中,传播距离的计算方式包括但不限于:
第一,通过空气衰减值对传播距离进行计算,具体计算过程请参考步骤404;
第二,通过语音输入信号的频率对传播距离进行计算,由于在其他传播条件不变的情况下,传播距离与频率呈正相关关系,可以根据语音输入信号的频率确定传播距离,如:计算通常情况下传播距离与频率在数值上的比例关系,并根据该比例关系以及语音输入信号的频率确定语音输入信号的传播距离。
示意性的,请参考图7结合上表一,该传播距离即用户与智能音箱之间的距离为7.5m,结合表一可知,当传播距离为7m-8m时,预设放大系数为1.8,则将空气衰减值与该预设放大系数1.8相乘得到乘积,并将输入声强和乘积之和确定为输出声强。
步骤607,检测语音信号的频率是否小于第二频率阈值。
可选地,上述第一频率阈值不小于该第二频率阈值。
可选地,当语音输入信号的内容大部分不变的情况下,语音输入信号的传播距离较长时,该语音输入信号的频率相应也会较大,当语音输入信号的传播距离较短时,该语音输入信号的频率相应也会较小,通常,语音输入信号的频率为500赫兹(Hertz,Hz)至3000Hz,此时,该语音输入信号的传播距离通常为4至6米,当语音输入信号的频率小于500Hz时,可以认为该语音输入信号的传播距离小于4米,示意性的,如图8所示,该语音输入信号的传播距离为2米时,该语音传播信号的频率小于500Hz。
步骤608,当语音输入信号的频率小于第二频率阈值时,将预设声强设定为输出声强。
该预设声强为智能音箱中预先存储的在传播距离较短时,智能音箱播放的语音输出信号的声强。
步骤609,当语音输入信号的频率小于第二频率阈值时,将输入声强与预设衰减声强的差确定为输出声强。
可选地,通过将输入声强与预设衰减声强的差确定为输出声强,确保了在传播距离较近的情况下,输出声强小于输入声强。
步骤610,根据输出声强播放语音输出信号。
值得注意的是,当语音输入信号是语音控制信号时,上述语音输出信号可以是语音控制信号,终端执行语音控制信号对应的操作指令,并根据输出声强反馈语音反馈信号,该语音反馈信号用于反馈操作指令的执行结果。
综上所述,本实施例提供的输出声强调节方法,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。
本实施例提供的输出声强调节方法,通过对语音输入信号的频率进行检测,将频率大于第一频率阈值的语音输入信号和频率小于第二频率阈值的语音输入信号区分处理,确保当语音输出信号的传播距离较远(即频率大于第一频率阈值)时该语音输出信号依然在可听见范围内,以及确保当语音输出信号的传播距离较近(即频率小于于第二频率阈值)时,该语音输出信号的声强大小不会由于对传播距离的计算不准确而过大或者过小。
本实施例提供的输出声强调节方法,可以仅通过语音输入信号这一种声音估算出语音输入信号的传播距离,简化了计算步骤。
值得注意的是,在图4所示的输出声强调节方法的流程图中,当步骤404中采用第二种方式对输出声强进行确定时,预设放大系数α也可以是用户预先自定义的,可选地,这个预先自定义的过程可以发生在每次采集语音输入信号之后确定输出声强之前,也可以发生在采集语音输入信号之前。示意性的,在步骤404之前,还可以执行如下步骤901至步骤905,如图9所示:
步骤901,采集外部声源的语音初始化信号。
可选地,智能音箱包括麦克风,该麦克风用于对语音信号进行采集,智能音箱通过该麦克风采集外部声源的语音初始化信号。
可选地,该语音初始化信号是指,用户在初始化过程中对智能音箱发出的语音输入信号。
步骤902,根据语音初始化信号和n个候选放大系数α,确定出n个候选声强,n为正整数。
可选地,确定该n个候选声强的方式可以参考如下步骤:
步骤9021,计算语音初始化信号的输入声强。
该语音初始化信号的输入声强的计算方式可参考上述步骤302,在此不再赘述。
步骤9022,估算语音初始化信号的空气衰减值。
该语音初始化信号的空气衰减值的计算方式可参考上述步骤3034,在此不再赘述。
步骤9023,将语音初始化信号的空气衰减值与n个候选放大系数α相乘,得到n个乘积。
可选地,该n个候选放大系数可以由智能音箱随机进行设置或根据预设算法进行设置,也可以是预先设置并存储在智能音箱中的。
步骤9024,将语音初始化信号的输入声强和n个乘积分别相加,得到n个候选输出声强。
示意性的,以语音初始化信号的输入声强为30dB,语音初始化信号的空气衰减值为2dB,智能音箱中预先存储有3个候选放大系数:1.5倍、1.8倍以及2倍为例,将该语音初始化信号的空气衰减值与3个候选放大系数分别相乘,得到3个乘积:3dB、3.6dB以及4dB,并将上述3个乘积与语音初始化信号的输入声强分别相加,得到3个候选输出声强33dB、33.6dB以及34dB。
步骤903,按照n个候选输出声强分别播放初始化反馈信号。
步骤904,接收对按照第i个候选输出声强播放的初始化反馈信号的确认信号,1≤i≤n。
可选地,智能音箱可以依次直接播放n个初始化反馈信号,并在播放完毕n个初始化反馈信号后,接收用户对第i个初始化反馈信号的确认信号,如:智能音箱依次播放第1个初始化反馈信号“第一音量”、第2个初始化反馈信号“第二音量”以及第3个初始化反馈信号“第三音量”后,接收用户对第3个初始化反馈信号的确认信号“第三音量”;
智能音箱也可以播放完毕一个初始化反馈信号后,等待接收用户对该初始化反馈信号的选择信号,如:智能音箱播放第1个初始化反馈信号“此音量是否合适”,接收用户发出的语音指令“否”,智能音箱播放第2个初始化反馈信号“此音量是否合适”,接收用户发出的语音指令“是”。
步骤905,将第i个候选输出声强对应的候选放大系数确定为预设放大系数α。
可选地,智能音箱还可以对该预设放大系数α和计算得到的用户与智能音箱之间的传播距离进行对应存储,存储结果请参考如步骤404下的表一。
其中,传播距离的计算方式包括但不限于:
第一,通过空气衰减值对传播距离进行计算,具体计算过程请参考步骤404;
第二,通过语音输入信号的频率对传播距离进行计算,由于在其他传播条件不变的情况下,传播距离与频率呈正相关关系,可以根据语音输入信号的频率确定传播距离,如:计算通常情况下传播距离与频率在数值上的比例关系,并根据该比例关系以及语音输入信号的频率确定语音输入信号的传播距离。
示意性的,在用户与智能音箱之间的距离为7.5m时,执行上述步骤901至步骤905后,得到与传播距离7.5m对应的放大系数为1.8,7.5m在区间7m至8m之间,则在表一中存储距离区间7m至8m与放大系数1.8的对应关系。在用户与智能音箱之间的距离为7m至8m之间时,可以直接使用该放大系数1.8。
值得注意的是,当候选输出声强中不包括用户选择的目标输出声强时,即未接收到对任意一个初始化反馈信号的确认信号时,智能音箱还可以根据用户的语音信号按照预设比例降低候选声强最小的初始化反馈信号,或者按照预设比例提高候选声强最大的初始化反馈信号。
综上所述,本实施例提供的输出声强调节方法,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果;
本实施例提供的输出声强调节方法,通过设置至少一个候选输出声强以供用户选择,用户可以通过试听,对候选输出声强中的目标输出声强进行确认,确认后智能音箱便根据目标输出声强播放语音输出信号,提高了该输出声强的调整准确度。
示意性的,对于上述步骤601至步骤610结合一个具体的场景做进一步说明,以上述电子设备为智能音箱为例进行说明:
第一种情况,距离较远时:
通常情况下,当用户与智能音箱的距离较远时,用户需要提高音量,如:使用吼叫的方式,向智能音箱发出语音输入信号,请结合图7,如图7所示,用户与智能音箱之间的距离为7.5m,而语音输入信号的正常传播距离为4m至6m,则智能音箱接收到语音输入信号后,首先对该语音输入信号的输入声强进行计算,并对该语音输入信号的频率进行检测,并检测得到该频率大于3000Hz,即智能音箱可仅通过该语音输入信号确定该语音输入信号的传播距离较大,例如为7.5m,该智能音箱估算该语音输入信号的空气衰减值,并将输入声强加上空气衰减值与预设放大系数的乘积,得到输出声强,其中,该预设放大系数是预先存储的与传播距离7.5m对应的放大系数,智能音箱根据计算得到的输出声强播放语音输出信号;
第二种情况,距离较近时:
当用户与智能音箱的距离较近时,用户可以降低音量,如:使用悄悄话的形式,向智能音箱发出语音输入信号,请结合图8,如图8所示,用户与智能音箱之间的距离为1m,而语音输入信号的正常传播距离为4m至6m,则智能音箱接收到语音输入信号后,首先对该语音输入信号的输入声强进行计算,并对该语音输入信号的频率进行检测,并检测得到该频率小于500Hz,则智能音箱判断该用户与智能音箱之间的距离小于4m,将预设声强确定为输出声强,并根据该预设声强播放语音输出信号;
第三中情况,距离在正常距离范围内时:
当用户与智能音箱的距离在正常距离范围内,即智能音箱接收到的语音输入信号的频率在正常频率范围内时,智能音箱将计算得到的输入声强加上估算得到的空气衰减值,作为输出声强,或者,智能音箱将计算得到的输入声强直接确定为输出声强,或者,智能音箱将计算得到的输入声强与预设声强之和确定为输出声强,并根据该输出声强播放语音输出信号。
图10是本公开一个示例性的实施例提供的输出声强调节装置的结构框图,如图10所示,该输出声强调节装置包括:采集模块1010、计算模块1020、确定模块1030以及播放模块1040;
采集模块1010,被配置为采集外部声源的语音输入信号;
计算模块1020,被配置为计算语音输入信号的输入声强;
确定模块1030,被配置为根据输入声强确定输出声强;
播放模块1040,被配置为根据输出声强播放语音输出信号。
在一个可选的实施例中,确定模块1030,还被配置为根据语音输入信号确定距离参数,距离参数用于表征与外部声源之间的距离;
确定模块1030,还被配置为根据输入声强和距离参数,确定输出声强。
在一个可选的实施例中,计算模块1020,还被配置为估算语音输入信号的空气衰减值;
确定模块1030,还被配置为根据输入声强和空气衰减值,确定输出声强。
在一个可选的实施例中,确定模块1030,包括:
检测单元,被配置为检测语音输入信号的频率是否大于第一频率阈值;
计算模块1020,还被配置为当语音输入信号的频率大于第一频率阈值时,估算语音输入信号的空气衰减值;
确定模块1030,还被配置为根据输入声强和空气衰减值,确定输出声强。
在一个可选的实施例中,确定模块1030,包括:
检测单元,被配置为检测语音输入信号的频率是否小于第二频率阈值;
确定单元,被配置为当语音输入信号的频率小于第二频率阈值时,将预设声强设定为输出声强;
确定单元,还被配置为当语音输入信号的频率小于第二频率阈值时,将输入声强与预设衰减声强的差,确定为输出声强。
在一个可选的实施例中,计算模块1020,包括:
分离单元,被配置为分离语音输入信号中的直达声音信号和首次回声信号;
第一计算单元,被配置为根据直达声音信号的振幅和频率,计算直达声音信号的第一声强;
第一计算单元,还被配置为根据首次回声信号的振幅和频率,计算首次回声信号的第二声强;
第一计算单元,还被配置为根据第一声强、第二声强和预设的反射介质衰减值,计算空气衰减值。
在一个可选的实施例中,确定模块1030,还被配置为计算空气衰减值与预设放大系数α的乘积;将输入声强和乘积之和,确定为输出声强。
在一个可选的实施例中,采集模块1010,被配置为采集外部声源的语音初始化信号;
确定模块1030,还被配置为根据语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,n为正整数;
装置,还包括:
播放模块1040,被配置为按照n个候选输出声强分别播放初始化反馈信号;
接收模块,被配置为接收对按照第i个候选输出声强播放的初始化反馈信号的确认信号,将第i个候选输出声强对应的候选放大系数确定为预设放大系数α,1≤i≤n。
在一个可选的实施例中,确定模块1030,还包括:
第二计算单元,被配置为计算语音初始化信号的输入声强;
第二计算单元,还被配置为估算语音初始化信号的空气衰减值;
第二计算单元,还被配置为将语音初始化信号的空气衰减值与n个候选放大系数α相乘,得到n个乘积;
第二计算单元,还被配置为将语音初始化信号的输入声强和n个乘积分别相加,得到n个候选输出声强。
在一个可选的实施例中,计算模块1020,还被配置为根据空气衰减值计算与外部声源之间的距离;
确定模块1030,还被配置为确定与距离对应的预设放大系数α。
在一个可选的实施例中,检测模块,还被配置为检测语音输入信号是否为语音控制信号;
计算模块1020,还被配置为当语音输入信号是语音控制信号时,执行计算语音输入信号的输入声强步骤;
播放模块1040,还包括:
执行单元,被配置为执行语音控制信号对应的操作指令;
播放模块1040,还被配置为根据输出声强播放语音反馈信号,语音反馈信号用于反馈操作指令的执行结果。
综上所述,本实施例提供的输出声强调节装置,通过根据语音输入信号的声强大小确定语音输出信号的声强大小,即可以动态调整电子设备播放的语音输出信号的声强大小,提高了声强调节的准确度以及人机交互效率,省去了通过电子设备的物理按键或者遥控器调节声强的繁琐操作,实现了电子设备的音量自适应调节的效果。
本实施例提供的输出声强调节装置,通过对语音输入信号的频率进行检测,将频率大于第一频率阈值的语音输入信号和频率小于第二频率阈值的语音输入信号区分处理,确保当语音输出信号的传播距离较远(即频率大于第一频率阈值)时该语音输出信号依然在可听见范围内,以及确保当语音输出信号的传播距离较近(即频率小于于第二频率阈值)时,该语音输出信号的声强大小不会由于对传播距离的计算不准确而过大或者过小。
本实施例提供的输出声强调节装置,可以仅通过语音输入信号这一种声音估算出语音输入信号的传播距离,简化了计算步骤。
图11是根据一示意性实施例示出的电子设备的框图。该电子设备1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制电子设备1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1118来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在电子设备1100的操作。这些数据的示例包括用于在电子设备1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1106为电子设备1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为电子设备1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在电子设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当电子设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当电子设备1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为电子设备1100提供各个方面的状态评估。例如,传感器组件1114可以检测到电子设备1100的打开/关闭状态,组件的相对定位,例如组件为电子设备1100的显示器和小键盘,传感器组件1114还可以检测电子设备1100或电子设备1100一个组件的位置改变,用户与电子设备1100接触的存在或不存在,电子设备1100方位或加速/减速和电子设备1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于电子设备1100和其他设备之间有线或无线方式的通信。电子设备1100可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示意性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示意性实施例中,通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示意性实施例中,电子设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述输出声强调节方法。
在示意性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由电子设备1100的处理器1118执行以完成上述输出声强调节方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD2-ROM、磁带、软盘和光数据存储设备等。
图12是本公开另一个示例性的实施例提供的智能音箱的结构框图,该智能音箱包括:麦克风1210、扬声器1220,处理器1230以及存储器1240,;
麦克风1210用于采集环境中的语音信号,扬声器1220用于对环境输出语音信号,即进行语音信号的播放;
存储器1240中存储有至少一条指令,该指令由处理器1230加载并执行以实现如图1至图9任一所述的输出声强调节方法。
本公开实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如图1至图9任一所示的输出声强调节方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (23)

1.一种输出声强调节方法,其特征在于,所述方法包括:
采集外部声源的语音输入信号;
检测所述语音输入信号是否为语音控制信号;
当所述语音输入信号是所述语音控制信号时,计算所述语音输入信号的输入声强;
根据所述输入声强确定输出声强;
根据所述输出声强播放语音输出信号,包括:执行所述语音控制信号对应的操作指令;根据所述输出声强播放语音反馈信号,所述语音反馈信号用于反馈所述操作指令的执行结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输入声强确定输出声强,包括:
根据所述语音输入信号确定距离参数,所述距离参数用于表征与所述外部声源之间的距离;
根据所述输入声强和所述距离参数,确定所述输出声强。
3.根据权利要求2所述的方法,其特征在于,所述距离参数包括:空气衰减值;
所述根据所述语音输入信号确定距离参数,包括:
估算所述语音输入信号的空气衰减值;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
根据所述输入声强和所述空气衰减值,确定所述输出声强。
4.根据权利要求2所述的方法,其特征在于,所述距离参数包括:所述语音输入信号的频率;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
检测所述语音输入信号的频率是否大于第一频率阈值;
当所述语音输入信号的频率大于所述第一频率阈值时,估算所述语音输入信号的空气衰减值;
根据所述输入声强和所述空气衰减值,确定所述输出声强。
5.根据权利要求2所述的方法,其特征在于,所述距离参数包括:所述语音输入信号的频率;
所述根据所述输入声强和所述距离参数,确定所述输出声强,包括:
检测所述语音输入信号的频率是否小于第二频率阈值;
当所述语音输入信号的频率小于所述第二频率阈值时,将预设声强设定为所述输出声强;或,当所述语音输入信号的频率小于所述第二频率阈值时,将所述输入声强与预设衰减声强的差,确定为所述输出声强。
6.根据权利要求3或4所述的方法,其特征在于,所述估算所述语音输入信号的空气衰减值,包括:
分离所述语音输入信号中的直达声音信号和首次回声信号;
根据所述直达声音信号的振幅和频率,计算所述直达声音信号的第一声强;
根据所述首次回声信号的振幅和频率,计算所述首次回声信号的第二声强;
根据所述第一声强、所述第二声强和预设的反射介质衰减值,计算所述空气衰减值。
7.根据权利要求3或4所述的方法,其特征在于,所述根据所述输入声强和所述空气衰减值,确定所述输出声强,包括:
计算所述空气衰减值与预设放大系数α的乘积;
将所述输入声强和所述乘积之和,确定为所述输出声强。
8.根据权利要求7所述的方法,其特征在于,所述计算所述空气衰减值与预设放大系数α的乘积之前,还包括:
采集外部声源的语音初始化信号;
根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,n为正整数;
按照n个所述候选输出声强分别播放初始化反馈信号;
接收对按照第i个候选输出声强播放的所述初始化反馈信号的确认信号,将所述第i个候选输出声强对应的所述候选放大系数确定为所述预设放大系数α,1≤i≤n。
9.根据权利要求8所述的方法,其特征在于,所述根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,包括:
计算所述语音初始化信号的输入声强;
估算所述语音初始化信号的空气衰减值;
将所述语音初始化信号的空气衰减值与所述n个候选放大系数α相乘,得到n个乘积;
将所述语音初始化信号的输入声强和所述n个所述乘积分别相加,得到所述n个候选输出声强。
10.根据权利要求7所述的方法,其特征在于,所述计算所述空气衰减值与预设放大系数α的乘积之前,还包括:
根据所述空气衰减值计算与所述外部声源之间的距离;
确定与所述距离对应的预设放大系数α。
11.一种输出声强调节装置,其特征在于,所述装置包括:
采集模块,被配置为采集外部声源的语音输入信号;
检测模块,被配置为检测所述语音输入信号是否为语音控制信号;
计算模块,被配置为当所述语音输入信号是所述语音控制信号时,计算所述语音输入信号的输入声强;
确定模块,被配置为根据所述输入声强确定输出声强;
播放模块,被配置为根据所述输出声强播放语音输出信号,所述播放模块,还包括:执行单元,被配置为执行所述语音控制信号对应的操作指令;
所述播放模块,还被配置为根据所述输出声强播放语音反馈信号,所述语音反馈信号用于反馈所述操作指令的执行结果。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,还被配置为根据所述语音输入信号确定距离参数,所述距离参数用于表征与所述外部声源之间的距离;
所述确定模块,还被配置为根据所述输入声强和所述距离参数,确定所述输出声强。
13.根据权利要求12所述的装置,其特征在于,所述计算模块,还被配置为估算所述语音输入信号的空气衰减值;
所述确定模块,还被配置为根据所述输入声强和所述空气衰减值,确定所述输出声强。
14.根据权利要求12所述的装置,其特征在于,所述确定模块,包括:
检测单元,被配置为检测所述语音输入信号的频率是否大于第一频率阈值;
所述计算模块,还被配置为当所述语音输入信号的频率大于所述第一频率阈值时,估算所述语音输入信号的空气衰减值;
所述确定模块,还被配置为根据所述输入声强和所述空气衰减值,确定所述输出声强。
15.根据权利要求12所述的装置,其特征在于,所述确定模块,包括:
检测单元,被配置为检测所述语音输入信号的频率是否小于第二频率阈值;
确定单元,被配置为当所述语音输入信号的频率小于所述第二频率阈值时,将预设声强设定为所述输出声强;
所述确定单元,还被配置为当所述语音输入信号的频率小于所述第二频率阈值时,将所述输入声强与预设衰减声强的差,确定为所述输出声强。
16.根据权利要求13或14所述的装置,其特征在于,所述计算模块,包括:
分离单元,被配置为分离所述语音输入信号中的直达声音信号和首次回声信号;
第一计算单元,被配置为根据所述直达声音信号的振幅和频率,计算所述直达声音信号的第一声强;
所述第一计算单元,还被配置为根据所述首次回声信号的振幅和频率,计算所述首次回声信号的第二声强;
所述第一计算单元,还被配置为根据所述第一声强、所述第二声强和预设的反射介质衰减值,计算所述空气衰减值。
17.根据权利要求13或14所述的装置,其特征在于,所述确定模块,还被配置为计算所述空气衰减值与预设放大系数α的乘积;将所述输入声强和所述乘积之和,确定为所述输出声强。
18.根据权利要求17所述的装置,其特征在于,所述所述采集模块,被配置为采集外部声源的语音初始化信号;
所述确定模块,还被配置为根据所述语音初始化信号和n个候选放大系数α,确定出n个候选输出声强,n为正整数;
所述装置,还包括:
播放模块,被配置为按照n个所述候选输出声强分别播放初始化反馈信号;
接收模块,被配置为接收对按照第i个候选输出声强播放的所述初始化反馈信号的确认信号,将所述第i个候选输出声强对应的所述候选放大系数确定为所述预设放大系数α,1≤i≤n。
19.根据权利要求18所述的装置,其特征在于,所述确定模块,还包括:
第二计算单元,被配置为计算所述语音初始化信号的输入声强;
所述第二计算单元,还被配置为估算所述语音初始化信号的空气衰减值;
所述第二计算单元,还被配置为将所述语音初始化信号的空气衰减值与所述n个候选放大系数α相乘,得到n个乘积;
所述第二计算单元,还被配置为将所述语音初始化信号的输入声强和所述n个所述乘积分别相加,得到所述n个候选输出声强。
20.根据权利要求17所述的装置,其特征在于,所述计算模块,还被配置为根据所述空气衰减值计算与所述外部声源之间的距离;
所述确定模块,还被配置为确定与所述距离对应的预设放大系数α。
21.一种电子设备,其特征在于,所述电子设备包括麦克风、扬声器、处理器以及存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至10任一所述的输出声强调节方法。
22.根据权利要求21所述的电子设备,其特征在于,所述电子设备为智能音箱。
23.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至10任一所述的输出声强调节方法。
CN201711324342.9A 2017-12-13 2017-12-13 输出声强调节方法、装置、电子设备及存储介质 Active CN108091330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711324342.9A CN108091330B (zh) 2017-12-13 2017-12-13 输出声强调节方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711324342.9A CN108091330B (zh) 2017-12-13 2017-12-13 输出声强调节方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108091330A CN108091330A (zh) 2018-05-29
CN108091330B true CN108091330B (zh) 2020-11-27

Family

ID=62174099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711324342.9A Active CN108091330B (zh) 2017-12-13 2017-12-13 输出声强调节方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108091330B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806714B (zh) * 2018-07-19 2020-09-11 北京小米智能科技有限公司 调节音量的方法和装置
CN108859840B (zh) * 2018-07-23 2019-10-25 爱驰汽车有限公司 电动汽车充电控制方法、系统、设备及存储介质
CN109495649B (zh) * 2018-12-14 2021-10-01 深圳市沃特沃德信息有限公司 音量调节方法、系统及存储介质
CN110444204A (zh) * 2019-07-22 2019-11-12 北京艾米智能机器人科技有限公司 一种离线智能语音控制装置及其控制方法
CN110806849A (zh) * 2019-10-30 2020-02-18 歌尔科技有限公司 智能设备及其音量调节方法和计算机可读存储介质
CN112307161B (zh) * 2020-02-26 2022-11-22 北京字节跳动网络技术有限公司 用于播放音频的方法和装置
CN113709631B (zh) * 2020-05-22 2023-01-17 宏碁股份有限公司 环绕音响系统及将环绕音响技术应用在电竞座椅的方法
CN111693139B (zh) * 2020-06-19 2022-04-22 浙江讯飞智能科技有限公司 声音强度测量方法、装置、设备及存储介质
CN113112990A (zh) * 2021-03-04 2021-07-13 昆明理工大学 一种基于频谱包络图的可变时长语音的语种识别方法
CN114694647A (zh) * 2022-02-18 2022-07-01 青岛海尔科技有限公司 唤醒语音音频的响应方法和装置、存储介质及电子装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005286726A (ja) * 2004-03-30 2005-10-13 Clarion Co Ltd 音響装置
EP2757685A1 (en) * 2011-09-15 2014-07-23 Sony Corporation Speech processing device and method, and program
CN105406828A (zh) * 2014-08-22 2016-03-16 小米科技有限责任公司 音响调节方法及装置
CN105487657A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 声音响度的确定方法及装置
CN106126167A (zh) * 2016-06-16 2016-11-16 广东欧珀移动通信有限公司 一种音效处理方法及终端设备
CN103414443B (zh) * 2013-08-27 2017-02-01 广州顶毅电子有限公司 音量自动控制方法以及音量自动控制系统
CN106774830A (zh) * 2016-11-16 2017-05-31 网易(杭州)网络有限公司 虚拟现实系统、语音交互方法及装置
CN106933366A (zh) * 2017-03-23 2017-07-07 北京小米移动软件有限公司 亮屏方法及装置
CN106980486A (zh) * 2017-03-23 2017-07-25 北京小米移动软件有限公司 音量控制方法及装置
CN107172256A (zh) * 2017-07-27 2017-09-15 广东欧珀移动通信有限公司 耳机通话自适应调整方法、装置、移动终端及存储介质
CN107613431A (zh) * 2017-08-23 2018-01-19 广东思派康电子科技有限公司 计算机可读存储介质、自调整输出音量的播音器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005286726A (ja) * 2004-03-30 2005-10-13 Clarion Co Ltd 音響装置
EP2757685A1 (en) * 2011-09-15 2014-07-23 Sony Corporation Speech processing device and method, and program
CN103414443B (zh) * 2013-08-27 2017-02-01 广州顶毅电子有限公司 音量自动控制方法以及音量自动控制系统
CN105406828A (zh) * 2014-08-22 2016-03-16 小米科技有限责任公司 音响调节方法及装置
CN105487657A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 声音响度的确定方法及装置
CN106126167A (zh) * 2016-06-16 2016-11-16 广东欧珀移动通信有限公司 一种音效处理方法及终端设备
CN106774830A (zh) * 2016-11-16 2017-05-31 网易(杭州)网络有限公司 虚拟现实系统、语音交互方法及装置
CN106933366A (zh) * 2017-03-23 2017-07-07 北京小米移动软件有限公司 亮屏方法及装置
CN106980486A (zh) * 2017-03-23 2017-07-25 北京小米移动软件有限公司 音量控制方法及装置
CN107172256A (zh) * 2017-07-27 2017-09-15 广东欧珀移动通信有限公司 耳机通话自适应调整方法、装置、移动终端及存储介质
CN107613431A (zh) * 2017-08-23 2018-01-19 广东思派康电子科技有限公司 计算机可读存储介质、自调整输出音量的播音器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Case Study of An Automatic Volume Control Interface for A Telepresence System;Takahashi, M;《2015 24TH IEEE INTERNATIONAL SYMPOSIUM ON ROBOT AND HUMAN INTERACTIVE COMMUNICATION (RO-MAN)》;20151231;517-522 *
一种基于说话人识别技术的自动音量控制系统;廖贵成;《桂林电子工业学院学报》;20040630(第6期);46-49 *

Also Published As

Publication number Publication date
CN108091330A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108091330B (zh) 输出声强调节方法、装置、电子设备及存储介质
EP3163748B1 (en) Method, device and terminal for adjusting volume
CN107749925B (zh) 音频播放方法及装置
CN104902059A (zh) 来电提醒方法及装置
CN108806714B (zh) 调节音量的方法和装置
CN105187594A (zh) 一种消除回声的方法和装置
CN108076199B (zh) 麦克风的气密性检测方法及装置
CN106888327B (zh) 语音播放方法及装置
CN104112459A (zh) 播放音频数据的方法和装置
CN106406175B (zh) 开门提醒方法及装置
KR102633176B1 (ko) 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법
CN110392334B (zh) 一种麦克风阵列音频信号自适应处理方法、装置及介质
CN111698593B (zh) 主动降噪方法及装置、终端
CN109769191B (zh) 音频输出检测方法及装置、电子设备
CN111009239A (zh) 回声消除方法、回声消除装置及电子设备
CN111988704A (zh) 声音信号处理方法、装置以及存储介质
CN111294704B (zh) 音频处理方法、装置及存储介质
CN108206884B (zh) 终端、终端发射通信信号的调整方法和电子设备
CN109194808B (zh) 音量调节方法及装置
KR20160125145A (ko) 객체와 음향기기 사이의 거리를 고려한 음량 조절 장치 및 방법
CN105204841A (zh) 量程调整方法及装置
CN115278441A (zh) 语音检测方法、装置、耳机及存储介质
CN104112460A (zh) 播放音频数据的方法和装置
CN105472092A (zh) 通话控制方法、装置及移动终端
CN115065921A (zh) 一种防止助听器啸叫的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant