CN113707133B - 一种基于声环境感知的服务机器人语音输出增益获取方法 - Google Patents
一种基于声环境感知的服务机器人语音输出增益获取方法 Download PDFInfo
- Publication number
- CN113707133B CN113707133B CN202111258859.9A CN202111258859A CN113707133B CN 113707133 B CN113707133 B CN 113707133B CN 202111258859 A CN202111258859 A CN 202111258859A CN 113707133 B CN113707133 B CN 113707133B
- Authority
- CN
- China
- Prior art keywords
- robot
- speech
- output gain
- spl
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000008447 perception Effects 0.000 title claims abstract description 10
- 230000035945 sensitivity Effects 0.000 claims abstract description 9
- 230000001755 vocal effect Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/008—Manipulators for service tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于声环境感知的服务机器人语音输出增益获取方法,首先确定语言可懂度指标,然后测量单位幅度信号驱动时,机器人发声系统在目标位置处产生的语声级零敏度SS;获取服务机器人工作场所的混响时间T60;使用机器人自身的传声器获取所在场景的背景噪声级NL;根据语言可懂度指标、混响时间T60、语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL;根据语声级零敏度SS和期望语声级SPL实时得到语音输出增益。本发明在机器人所处复杂声环境中时可考虑反射声和背景噪声的影响,有效提升机器人发声时的语音可懂度,并降低对周边环境的影响。
Description
技术领域
本申请涉及服务机器人领域,尤其涉及一种服务机器人语音输出增益的获取方法。
背景技术
服务机器人是一种半自主或全自主工作的机器人,它能完成有益于人类健康的服务工作,但不包括从事生产的设备。其中有一类采用语音作为载体进行高效快捷的人机交互的服务机器人,从事例如银行金融业务办理、公众活动引导、等方面的工作,往往。为了保证机器人发声的清晰可懂,且尽量减少交互人员的听觉疲劳和对周边声环境的影响,就需要精确控制机器人发声时在目标区域的声压级。
CN201911300908.3介绍了一种服务机器人的人机交互控制系统,其中的语音单元包括用于采集音频信号的MIC阵列和语音处理模块,以及用于输出音频的数字功放和扬声器,有明确的连接方式和功能定义,但未介绍其实际应用情况。专利CN201610698911.5提出了机器人的声纹服务系统及其服务控制方法,通过语音输出模块引导用户进行录音建立声音模型,通过声纹匹配来判定用户身份,但未对语音输出模块的清晰度做专门的要求或约定。专利CN206869893U要求保护一种声频定向的迎宾机器人,通过方位传感器检测人体距离信号并控制音量调节器以调节定向扬声器输出声音的大小。专利CN202011185926.4通过定位标签实现机器人对解说员的跟随,利用声纹识别和语义分析识别解说员的身份并对解说内容进行选择性扩音,通过命令词的方式进行音量调节。CN112104962B提出通过人脸图像判断用户年龄调整机器人相对于用户的位置,并进一步控制扩声装置的音量和朝向。综上所述,服务机器人语音输出时的增益控制选择主要有两类方法;根据机器人与用户距离或者判断用户年龄调用预设值,根据讲解员的主观需求使用命令词进行调整。第一类方法中选取预设值时未明确考虑实际应用中机器人所处声场景(周边环境声反射影响以及背景噪声变化)。而第二类方法主要依赖于讲解员的主观需求,且命令词的识别准确率同样受到声场景的影响。因此服务机器人发声时有必要考虑声场景,合理选择语音输出时的增益,才能在保证语言可懂度的前提下,尽量减少对周边声环境的影响。
特定声场景下的语言可懂度度在建筑声学和心理声学方面有大量研究。以教室为例,大量的研究表明语言可懂度度取决于信噪比、语言级、混响时间等多个声学参数(M.Hodgson, Rating, ranking, and understanding acoustical quality in universityclassrooms, J Acoust Soc Am, 112 (2), 568-575, 2002;ANSI/ASA S12.60-2002.Acoustical performance criteria, design requirement, and guidelines forschools. American National Standard Institute; 2002)。已有研究表明教室内的语言可懂度可以用信噪比和混响时间的多项式进行预测(J.S. Bradley, Speechintelligibility studies in classroom, J Acoust Soc Am, 80 (3), 849-850, 1986;J. Peng, Chinese speech intelligibility at different speech sound pressurelevels and signal to noise ratios in simulated classrooms, Appl Acoust, 71(4), 386-390, 2010)。进一步地,还有学者提出了在多项式中用语言清晰度C50代替混响时间T60进行教室语言可懂度的预测(J.S. Bradley and H. Sato, The intelligibility ofspeech in elementary school classrooms, J Acoust Soc Am, 123 (4), 2078-2086,2008)。但需要指出的是服务机器人的工作场所和教室的声环境不尽相同,且有些应用中,为了增加交互的趣味性,服务机器人发声的语调和教师正常授课的语调有明显差异,并不能将包括教室在内的现有语言可懂度的预测模型直接用于服务机器人的发声系统,而需要专门针对服务机器人的发声内容和声场景建立专门的语言可懂度模型。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于声环境感知的服务机器人语音输出增益获取方法,通过考虑周边环境反射以及背景噪声的影响,快速获取机器人语音输出时的合适增益。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于声环境感知的服务机器人语音输出增益获取方法,通过实际测量客观声学参量,结合预先建立的专用语言可懂度预测模型,根据需要的语言可懂度快速获取合适的语音输出增益,具体包括以下步骤:
步骤1,确定语言可懂度指标。
步骤2,测量单位幅度信号驱动时,机器人发声系统在目标位置处产生的语声级零敏度SS。
步骤3,获取服务机器人工作场所的混响时间T60。
步骤4,使用机器人自身的传声器获取所在场景的背景噪声级NL。
步骤5,根据步骤1确定的语言可懂度指标、步骤3得到的混响时间T60、步骤4得到的语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL。
步骤6,根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL得到语音输出增益。
GAI=SPL-SS
其中,GAI表示语音输出增益。
优选的:步骤5中语言可懂度预测模型为:
SI = a × (SPL-NL) + b × (SPL-NL)2 + c × T60 + d (%)
式中,SI为语言可懂度指标,SPL为期望语声级,NL为背景噪声级,T60为混响时间,a、b、c、d为常系数。
优选的:步骤3中获取服务机器人工作场所的混响时间T60的方法,混响时间通过调研获取,或者用仪器测量,或者由机器人自身的扬声器发声,或者由机器人驱动外部声源发声,机器人自身的传声器接收测量。
优选的:机器人自身的扬声器发声时,将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。
优选的:目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m,垂直高度为1.3-1.7m的区域。
本发明相比现有技术,具有以下有益效果:
本发明可以考虑周边环境声反射以及背景噪声的影响,快速获得合适的语音输出增益,同时获得的语音输出增益更适用于实际应用。
附图说明
图1为本发明的原理框图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于声环境感知的服务机器人语音输出增益获取方法,如图1所示,包括以下步骤:
步骤1,确定语言可懂度指标,语言可懂度指标可根据实际需要进行确定。
步骤2,测量单位幅度信号驱动时,机器人发声系统在目标位置处产生的语声级零敏度SS(归一化单位为dB)。目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m,垂直高度为1.3-1.7m的区域。
步骤3,调研或测量服务机器人工作场所的混响时间T60。
混响时间可以通过调研获取,或者用仪器测量,或者由机器人自身的扬声器发声,或者由机器人驱动外部声源发声,机器人自身的传声器接收测量。机器人自身的扬声器发声时,将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。
步骤4,使用机器人自身的传声器获取所在场景的背景噪声级NL。
步骤5,根据步骤1确定的语言可懂度指标、步骤3得到的混响时间T60、步骤4得到的语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL。
语言可懂度预测模型为:
SI = a × (SPL-NL) + b × (SPL-NL)2 + c × T60 + d (%)
式中,SI为语言可懂度指标,SPL为期望语声级,NL为背景噪声级,T60为混响时间,a、b、c、d为常系数,事先由大量的主观听音实验确定。
步骤6,根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL实时得出服务机器人的语音输出增益。
GAI=SPL-SS
其中,GAI表示语音输出增益。
实例
假设某服务机器人语音输出的目标区域为距其水平距离为1 m,垂直高度为1.5m处的某用户。针对该位置,语言可懂度预测模型为,
SI = 2.26 × (SPL-NL) –0.0888× (SPL-NL)2 + 13.9× T60 + 95(%)
可以按以下步骤实施:
(1)确定语言可懂度指标(语言可懂度的目标值)为95%。
(2)实际测得单位幅度信号驱动时,机器人发声系统在目标位置处产生的语声级零敏度SS为60 dB。
(3)获取服务机器人工作场所的混响时间T60为 0.2 s。
(4)使用机器人自身的传声器测得工作场所的背景噪声级NL 为40 dBA。
(5)将语言可懂度指标、测得的背景噪声级NL和混响时间T60代入语言可懂度预测模型,计算得到期望语声级SPL为66.5 dBA,将期望语声级SPL减去语声级灵敏度得到语言输出增益为6.5 dB。
如果不考虑背景噪声和环境混响,要实现95%的语言可懂度,期望语言级SPL仅要求达到25.5 dBA,对应的语言输出增益为-34.5 dB,比实际需求降低了41 dB。
本发明在机器人所处复杂声环境中时可考虑反射声和背景噪声的影响,有效提升机器人发声时的语音可懂度,并降低对周边环境的影响。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于声环境感知的服务机器人语音输出增益获取方法,其特征在于,包括以下步骤:
步骤1,确定语言可懂度指标;
步骤2,测量单位幅度信号驱动时,机器人发声系统在目标位置处产生的语声级零敏度SS;
步骤3,获取服务机器人工作场所的混响时间T60;
步骤4,使用机器人自身的传声器获取所在场景的背景噪声级NL;
步骤5,根据步骤1确定的语言可懂度指标、步骤3得到的混响时间T60、步骤4得到的语音背景噪声级NL代入语言可懂度预测模型得到目标位置的期望语声级SPL;
语言可懂度预测模型为:
SI = a × (SPL-NL) + b × (SPL-NL)2+ c × T60 + d (%)
式中,SI为语言可懂度指标,SPL为期望语声级,NL为背景噪声级,T60为混响时间,a、b、c、d为常系数;
步骤6,根据步骤2得到的语声级零敏度SS和步骤5得到的期望语声级SPL得到语音输出增益;
GAI=SPL-SS
其中,GAI表示语音输出增益。
2.根据权利要求1所述基于声环境感知的服务机器人语音输出增益获取方法,其特征在于:步骤3中获取服务机器人工作场所的混响时间T60的方法,混响时间通过调研获取,或者用仪器测量,或者由机器人自身的扬声器发声然后由机器人自身的传声器接收测量,或者由机器人驱动外部声源发声然后由机器人自身的传声器接收测量。
3.根据权利要求2所述基于声环境感知的服务机器人语音输出增益获取方法,其特征在于:机器人自身的扬声器发声时,将机器人自身的传声器通过线缆延长移动至测量点或外接传声器至机器人测量。
4.根据权利要求3所述基于声环境感知的服务机器人语音输出增益获取方法,其特征在于:目标位置所在的区域为距离机器人发声系统的水平距离为0.8-1.2 m、垂直高度为1.3-1.7m的区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258859.9A CN113707133B (zh) | 2021-10-28 | 2021-10-28 | 一种基于声环境感知的服务机器人语音输出增益获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258859.9A CN113707133B (zh) | 2021-10-28 | 2021-10-28 | 一种基于声环境感知的服务机器人语音输出增益获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707133A CN113707133A (zh) | 2021-11-26 |
CN113707133B true CN113707133B (zh) | 2022-02-18 |
Family
ID=78647148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111258859.9A Active CN113707133B (zh) | 2021-10-28 | 2021-10-28 | 一种基于声环境感知的服务机器人语音输出增益获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113707133B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724692B (zh) * | 2021-10-08 | 2023-07-14 | 广东电力信息科技有限公司 | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
CN116629655B (zh) * | 2023-03-22 | 2024-04-16 | 哈尔滨工业大学 | 基于学习效率的高校非母语教室声环境的综合评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105075289A (zh) * | 2013-03-13 | 2015-11-18 | 皇家飞利浦有限公司 | 用于改进特定声音对用户的可听度的装置和方法 |
CN108682430A (zh) * | 2018-03-09 | 2018-10-19 | 华南理工大学 | 一种客观评价室内语言清晰度的方法 |
CN109752080A (zh) * | 2018-05-18 | 2019-05-14 | 李文杰 | 有效感觉噪声级室外测量法检测便器水箱进水噪声的方法 |
CN110060666A (zh) * | 2018-01-17 | 2019-07-26 | 奥迪康有限公司 | 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置 |
KR20190141350A (ko) * | 2018-06-14 | 2019-12-24 | 한양대학교 산학협력단 | 로봇에서의 음성인식 장치 및 방법 |
-
2021
- 2021-10-28 CN CN202111258859.9A patent/CN113707133B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105075289A (zh) * | 2013-03-13 | 2015-11-18 | 皇家飞利浦有限公司 | 用于改进特定声音对用户的可听度的装置和方法 |
CN110060666A (zh) * | 2018-01-17 | 2019-07-26 | 奥迪康有限公司 | 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置 |
CN108682430A (zh) * | 2018-03-09 | 2018-10-19 | 华南理工大学 | 一种客观评价室内语言清晰度的方法 |
CN109752080A (zh) * | 2018-05-18 | 2019-05-14 | 李文杰 | 有效感觉噪声级室外测量法检测便器水箱进水噪声的方法 |
KR20190141350A (ko) * | 2018-06-14 | 2019-12-24 | 한양대학교 산학협력단 | 로봇에서의 음성인식 장치 및 방법 |
Non-Patent Citations (1)
Title |
---|
语音中元音和辅音的听觉感知研究;颜永红等;《应用声学》;20130531;第32卷(第3期);第231-236页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113707133A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113707133B (zh) | 一种基于声环境感知的服务机器人语音输出增益获取方法 | |
Falk et al. | A non-intrusive quality and intelligibility measure of reverberant and dereverberated speech | |
Hirahara et al. | Silent-speech enhancement using body-conducted vocal-tract resonance signals | |
US6956955B1 (en) | Speech-based auditory distance display | |
KR100905586B1 (ko) | 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법 | |
Ravanelli et al. | Impulse response estimation for robust speech recognition in a reverberant environment | |
KR20080111290A (ko) | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 | |
CN106535076A (zh) | 一种立体声音响系统的空间校准方法及其移动终端设备 | |
Bottalico et al. | Teachers' voicing and silence periods during continuous speech in classrooms with different reverberation times | |
US11501758B2 (en) | Environment aware voice-assistant devices, and related systems and methods | |
CN110830901B (zh) | 一种用于调节扬声器音量的多通道扩声系统及方法 | |
KR101145401B1 (ko) | 로봇의 음성인식 성능 평가장치 및 평가 방법 | |
CN111757235A (zh) | 一种具有教室语言清晰度测量功能的扩声系统 | |
Lorenc et al. | Assessment of sound laterality with the use of a multi-channel recorder | |
JP4909263B2 (ja) | バイノーラル音信号の主観的特性の判定法 | |
US11978433B2 (en) | Multi-encoder end-to-end automatic speech recognition (ASR) for joint modeling of multiple input devices | |
CN115512718A (zh) | 用于存量语音文件的语音质量评价方法、装置及系统 | |
CN115376534A (zh) | 一种麦克风阵列音频的处理方法及拾音胸牌 | |
Tisseyre et al. | Intelligibility in various rooms: Comparing its assessment by (RA) STI measurement with a direct measurement procedure | |
US20050004792A1 (en) | Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device | |
Amino̐ et al. | The correspondences between the perception of the speaker individualities contained in speech sounds and their acoustic properties. | |
CN112581935A (zh) | 环境感知语音辅助设备以及相关系统和方法 | |
KR102350890B1 (ko) | 휴대용 청력검사장치 | |
CN116390008B (zh) | 一种实现特定区域内免提式的无感扩音系统 | |
JP2006293102A (ja) | 受講者の自信の有無判定による理解度チェックを伴う教育システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |