CN113707133A

CN113707133A - 一种基于声环境感知的服务机器人语音输出增益获取方法

Info

Publication number: CN113707133A
Application number: CN202111258859.9A
Authority: CN
Inventors: 陶建成; 刘晓峻; 狄敏
Original assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Current assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2021-11-26
Anticipated expiration: 2041-10-28
Also published as: CN113707133B

Abstract

本发明公开了一种基于声环境感知的服务机器人语音输出增益获取方法，首先确定语言可懂度指标，然后测量单位幅度信号驱动时，机器人发声系统在目标位置处产生的语声级零敏度SS；获取服务机器人工作场所的混响时间T₆₀；使用机器人自身的传声器获取所在场景的背景噪声级NL；根据语言可懂度指标、混响时间T₆₀、语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL；根据语声级零敏度SS和期望语声级SPL实时得到语音输出增益。本发明在机器人所处复杂声环境中时可考虑反射声和背景噪声的影响，有效提升机器人发声时的语音可懂度，并降低对周边环境的影响。

Description

一种基于声环境感知的服务机器人语音输出增益获取方法

技术领域

本申请涉及服务机器人领域，尤其涉及一种服务机器人语音输出增益的获取方法。

背景技术

服务机器人是一种半自主或全自主工作的机器人，它能完成有益于人类健康的服务工作，但不包括从事生产的设备。其中有一类采用语音作为载体进行高效快捷的人机交互的服务机器人，从事例如银行金融业务办理、公众活动引导、等方面的工作，往往。为了保证机器人发声的清晰可懂，且尽量减少交互人员的听觉疲劳和对周边声环境的影响，就需要精确控制机器人发声时在目标区域的声压级。

CN201911300908.3介绍了一种服务机器人的人机交互控制系统，其中的语音单元包括用于采集音频信号的MIC阵列和语音处理模块,以及用于输出音频的数字功放和扬声器，有明确的连接方式和功能定义，但未介绍其实际应用情况。专利CN201610698911.5提出了机器人的声纹服务系统及其服务控制方法，通过语音输出模块引导用户进行录音建立声音模型，通过声纹匹配来判定用户身份，但未对语音输出模块的清晰度做专门的要求或约定。专利CN206869893U要求保护一种声频定向的迎宾机器人，通过方位传感器检测人体距离信号并控制音量调节器以调节定向扬声器输出声音的大小。专利CN202011185926.4通过定位标签实现机器人对解说员的跟随，利用声纹识别和语义分析识别解说员的身份并对解说内容进行选择性扩音，通过命令词的方式进行音量调节。CN112104962B提出通过人脸图像判断用户年龄调整机器人相对于用户的位置，并进一步控制扩声装置的音量和朝向。综上所述，服务机器人语音输出时的增益控制选择主要有两类方法；根据机器人与用户距离或者判断用户年龄调用预设值，根据讲解员的主观需求使用命令词进行调整。第一类方法中选取预设值时未明确考虑实际应用中机器人所处声场景（周边环境声反射影响以及背景噪声变化）。而第二类方法主要依赖于讲解员的主观需求，且命令词的识别准确率同样受到声场景的影响。因此服务机器人发声时有必要考虑声场景，合理选择语音输出时的增益，才能在保证语言可懂度的前提下，尽量减少对周边声环境的影响。

特定声场景下的语言可懂度度在建筑声学和心理声学方面有大量研究。以教室为例，大量的研究表明语言可懂度度取决于信噪比、语言级、混响时间等多个声学参数（M.Hodgson, Rating, ranking, and understanding acoustical quality in universityclassrooms, J Acoust Soc Am, 112 (2), 568-575, 2002；ANSI/ASA S12.60-2002.Acoustical performance criteria, design requirement, and guidelines forschools. American National Standard Institute; 2002）。已有研究表明教室内的语言可懂度可以用信噪比和混响时间的多项式进行预测（J.S. Bradley, Speechintelligibility studies in classroom, J Acoust Soc Am, 80 (3), 849-850, 1986;J. Peng, Chinese speech intelligibility at different speech sound pressurelevels and signal to noise ratios in simulated classrooms, Appl Acoust, 71(4), 386-390, 2010）。进一步地，还有学者提出了在多项式中用语言清晰度C₅₀代替混响时间T₆₀进行教室语言可懂度的预测（J.S. Bradley and H. Sato, The intelligibility ofspeech in elementary school classrooms, J Acoust Soc Am, 123 (4), 2078-2086,2008）。但需要指出的是服务机器人的工作场所和教室的声环境不尽相同，且有些应用中，为了增加交互的趣味性，服务机器人发声的语调和教师正常授课的语调有明显差异，并不能将包括教室在内的现有语言可懂度的预测模型直接用于服务机器人的发声系统，而需要专门针对服务机器人的发声内容和声场景建立专门的语言可懂度模型。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于声环境感知的服务机器人语音输出增益获取方法，通过考虑周边环境反射以及背景噪声的影响，快速获取机器人语音输出时的合适增益。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于声环境感知的服务机器人语音输出增益获取方法，通过实际测量客观声学参量，结合预先建立的专用语言可懂度预测模型，根据需要的语言可懂度快速获取合适的语音输出增益，具体包括以下步骤：

步骤1，确定语言可懂度指标。

步骤2，测量单位幅度信号驱动时，机器人发声系统在目标位置处产生的语声级零敏度SS。

步骤3，获取服务机器人工作场所的混响时间T₆₀。

步骤4，使用机器人自身的传声器获取所在场景的背景噪声级NL。

步骤5，根据步骤1确定的语言可懂度指标、步骤3得到的混响时间T₆₀、步骤4得到的语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL。

步骤6，根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL得到语音输出增益。

GAI=SPL-SS

其中，GAI表示语音输出增益。

优选的：步骤5中语言可懂度预测模型为：

SI = a × (SPL-NL) + b × (SPL-NL)²+ c × T₆₀ + d (%)

式中，SI为语言可懂度指标，SPL为期望语声级，NL为背景噪声级，T₆₀为混响时间，a、b、c、d为常系数。

优选的：步骤3中获取服务机器人工作场所的混响时间T₆₀的方法，混响时间通过调研获取，或者用仪器测量，或者由机器人自身的扬声器发声，或者由机器人驱动外部声源发声，机器人自身的传声器接收测量。

优选的：机器人自身的扬声器发声时，将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。

优选的：目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m，垂直高度为1.3-1.7m的区域。

本发明相比现有技术，具有以下有益效果：

本发明可以考虑周边环境声反射以及背景噪声的影响，快速获得合适的语音输出增益，同时获得的语音输出增益更适用于实际应用。

附图说明

图1为本发明的原理框图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于声环境感知的服务机器人语音输出增益获取方法，如图1所示，包括以下步骤：

步骤1，确定语言可懂度指标，语言可懂度指标可根据实际需要进行确定。

步骤2，测量单位幅度信号驱动时，机器人发声系统在目标位置处产生的语声级零敏度SS（归一化单位为dB）。目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m，垂直高度为1.3-1.7m的区域。

步骤3，调研或测量服务机器人工作场所的混响时间T₆₀。

混响时间可以通过调研获取，或者用仪器测量，或者由机器人自身的扬声器发声，或者由机器人驱动外部声源发声，机器人自身的传声器接收测量。机器人自身的扬声器发声时，将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。

语言可懂度预测模型为：

SI = a × (SPL-NL) + b × (SPL-NL)²+ c × T₆₀ + d (%)

式中，SI为语言可懂度指标，SPL为期望语声级，NL为背景噪声级，T₆₀为混响时间，a、b、c、d为常系数，事先由大量的主观听音实验确定。

步骤6，根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL实时得出服务机器人的语音输出增益。

GAI=SPL-SS

其中，GAI表示语音输出增益。

实例

假设某服务机器人语音输出的目标区域为距其水平距离为1 m，垂直高度为1.5m处的某用户。针对该位置，语言可懂度预测模型为，

SI = 2.26 × (SPL-NL) –0.0888× (SPL-NL)²+ 13.9× T₆₀ + 95(%)

可以按以下步骤实施：

(1)确定语言可懂度指标（语言可懂度的目标值）为95%。

(2)实际测得单位幅度信号驱动时，机器人发声系统在目标位置处产生的语声级零敏度SS为60 dB。

(3)获取服务机器人工作场所的混响时间T₆₀为 0.2 s。

(4)使用机器人自身的传声器测得工作场所的背景噪声级NL 为40 dBA。

(5)将语言可懂度指标、测得的背景噪声级NL和混响时间T₆₀代入语言可懂度预测模型，计算得到期望语声级SPL为66.5 dBA，将期望语声级SPL减去语声级灵敏度得到语言输出增益为6.5 dB。

如果不考虑背景噪声和环境混响，要实现95%的语言可懂度，期望语言级SPL仅要求达到25.5 dBA，对应的语言输出增益为-34.5 dB，比实际需求降低了41 dB。

本发明在机器人所处复杂声环境中时可考虑反射声和背景噪声的影响，有效提升机器人发声时的语音可懂度，并降低对周边环境的影响。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于声环境感知的服务机器人语音输出增益获取方法，其特征在于，包括以下步骤：

步骤1，确定语言可懂度指标；

步骤2，测量单位幅度信号驱动时，机器人发声系统在目标位置处产生的语声级零敏度SS；

步骤3，获取服务机器人工作场所的混响时间T₆₀；

步骤4，使用机器人自身的传声器获取所在场景的背景噪声级NL；

步骤5，根据步骤1确定的语言可懂度指标、步骤3得到的混响时间T₆₀、步骤4得到的语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL；

步骤6，根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL得到语音输出增益；

GAI=SPL-SS

其中，GAI表示语音输出增益。

2.根据权利要求1所述基于声环境感知的服务机器人语音输出增益获取方法，其特征在于：步骤5中语言可懂度预测模型为：

SI = a × (SPL-NL) + b × (SPL-NL)²+ c × T₆₀ + d (%)

3.根据权利要求2所述基于声环境感知的服务机器人语音输出增益获取方法，其特征在于：步骤3中获取服务机器人工作场所的混响时间T₆₀的方法，混响时间通过调研获取，或者用仪器测量，或者由机器人自身的扬声器发声，或者由机器人驱动外部声源发声，机器人自身的传声器接收测量。

4.根据权利要求3所述基于声环境感知的服务机器人语音输出增益获取方法，其特征在于：机器人自身的扬声器发声时，将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。

5.根据权利要求4所述基于声环境感知的服务机器人语音输出增益获取方法，其特征在于：目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m，垂直高度为1.3-1.7m的区域。