CN109545195B

CN109545195B - 陪伴机器人及其控制方法

Info

Publication number: CN109545195B
Application number: CN201811638896.0A
Authority: CN
Inventors: 袁晖
Original assignee: Shenzhen Ikmak Tech Co ltd
Current assignee: Shenzhen Ikmak Tech Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-02-21
Anticipated expiration: 2038-12-29
Also published as: CN109545195A

Abstract

本发明公开了一种陪伴机器人，包括头部、躯干、底部和语音处理装置，所述语音处理装置包括用于对用户的语音信息以及环境中的背景音进行训练并建模，形成语音模型和背景音模型并存储的模型建立模块、用于根据语音模型对用户语音进行识别的第一处理模块、用于根据背景音模型对环境中的背景音进行识别的第二处理模块，以及用于将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果的输出模块。本发明还同时公开了一种陪伴机器人的控制方法。本发明可提升用户使用机器人的便利性。

Description

陪伴机器人及其控制方法

技术领域

本发明涉及智能机器人领域，尤其涉及一种陪伴机器人及其控制方法。

背景技术

随着科技的发展和计算机技术的进步，机器人技术已然运用到生活和工业等各大领域，现有技术存在多种用来实现人机交互的机器人，为人类社会的经济发展做出了巨大贡献。

现有技术中，存在一种机器人，能够识别人的语音并与人对话，从而实现陪伴功能。然而，现有机器人的语音识别技术一般仅能识别正常人的发音，当用户的发音不准确或者存在语言障碍时，现有的语音识别技术很难识别或者识别不准确。以老人为例：随着年龄的增长，一些语言方面的疾病在老人人群中处于高发状态，例如失语症等。失语症患者可能在说话、阅读，或书写上，有语言表达能力的障碍，但是智力并不会受到失语症的影响。现有的语音识别技术就难以对患失语症的人群进行语音识别，或者识别准确性会大大降低，因此相关技术难以应用，例如，在将语音识别技术应用到陪伴机器人时，由于难以对这类语音进行识别，老人使用时极不方便，陪伴机器人难以真正发挥其作用。

有鉴于此，有必要提供一种陪伴机器人，以提升老人使用机器人的便利性。

发明内容

本发明的主要目的在于提供一种陪伴机器人，旨在提升老人使用机器人的便利性。

为了实现上述目的，本发明提供一种陪伴机器人，包括头部、躯干、底部和语音处理装置，所述语音处理装置包括用于对用户的语音信息以及环境中的背景音进行训练并建模，形成语音模型和背景音模型并存储的模型建立模块、用于根据语音模型对用户语音进行识别的第一处理模块、用于根据背景音模型对环境中的背景音进行识别的第二处理模块，以及用于将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果的输出模块。

优选地，所述语音处理装置包括语音侦听模块，所述语音侦听模块包括爆破音采集单元、摩擦音采集单元和鼻音采集单元，所述第一处理模块包括用于增强爆破音、摩擦音和鼻音震幅的增强单元。

优选地，所述语音处理装置包括背景音侦听模块，其中，所述背景音侦听模块包括音源侦听单元，用于采集环境中预置音源发出的声音。

优选地，所述语音侦听模块包括位于机器人头部的麦克风阵列。

优选地，所述背景音侦听模块分体设置，分别位于机器人的头顶和底部。

优选地，还包括用于与用户进行数据交互的用户交互模块，所述用户交互模块包括触摸屏和/或语音输出装置，所述触摸屏用于通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备，所述语音输出装置用于通过语音向用户广播所述识别结果并接收用户的反馈信息。

优选地，上述机器人还可包括视觉模块，所述视觉模块用于获取用户的生物信息并进行识别，并将识别结果输出至所述用户交互模块以供用户确认。

优选地，上述机器人还可包括移动装置，所述移动装置设置在机器人的底部并与所述输出模块电连接，用于在所述最终识别结果中包含移动命令时进行移动。

优选地，所述输出模块包括转换单元及无线通信单元，所述转换单元用于将所述最终识别结果转换为控制命令，所述无线通信单元用于将所述控制命令发送至相应的受控设备。

本发明还提供一种一种陪伴机器人的控制方法，其包括：

根据预先存储的语音模型对采集到的语音信息进行识别；

根据预先存储的背景音模型对环境中的背景音进行识别；

将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果。

优选地，所述根据预先存储的语音模型对采集到的语音信息进行识别包括：

采集语音信息中的爆破音、摩擦音和鼻音特征参数，并判断其是否在预设范围内；

当所述爆破音、摩擦音和鼻音特征参数不在预设范围内时，对其震幅进行增强处理。

优选地，上述方法还可包括：通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备。

本发明通过在陪伴机器人的语音处理装置中设置第一处理模块和第二处理模块，基于用户的语音和环境中的背景音识别用户的语音，旨在当用户发音不够完全或者不够清楚时，借助环境的识别结果来判断用户的真实意图，从而提升用户使用陪伴机器人的便利性，扩展陪伴机器人的应用范围。

附图说明

图1为本发明一实施例中机器人的结构示意图

图2为本发明一实施例中语音处理装置的结构示意图；

图3为本发明另一实施例中机器人的结构示意图；

图4为本发明一实施例中陪伴机器人的方法流程示意图。

具体实施方式

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种陪伴机器人，参照图1，该陪伴机器人包括头部10、躯干20、底部30和语音处理装置40。其中，语音处理装置40包括用于对用户的语音信息以及环境中的背景音进行训练并建模，形成语音模型和背景音模型并存储的模型建立模块41、用于根据语音模型对用户语音进行识别的第一处理模块42、用于根据背景音模型对环境中的背景音进行识别的第二处理模块43，以及用于将第一处理模块42和第二处理模块43的识别结果进行结合并输出最终识别结果的输出模块44。

本发明实施例中，陪伴机器人的外形有多种方案，不限于某一特定外形，但其至少包括头部10、躯干20和底部30。语音处理装置40至少包括语音处理芯片，该语音处理芯片可以集成第一处理模块42和第二处理模块43。当然，也可以将第一处理模块42和第二处理模块43分开设置，不妨碍其功能实现即可。输出模块44可将结合好的语音指令和位置信息发送至网络设备，再通过网关输出至受控的电器设备，从而实现对该电器设备的控制。本发明实施例中，输出模块44可包括转换单元及无线通信单元，转换单元用于将最终识别结果转换为控制命令，无线通信单元用于将所述控制命令发送至相应的受控设备。

以下是本发明的一个应用场景，借助该应用场景，可以进一步了解本发明语音识别的详细方案：

场景一：老人借助陪伴机器人，只需说出“空调”或“打开空调”，就打开了卧室的空调。具体流程如下：

步骤A：使用者向陪伴机器人发出语音命令；

步骤B：陪伴机器人的语音处理装置40接收到用户的语音信号；

步骤C：第一处理模块42分析得到第一识别结果：打开空调，同时唤醒背景音采集模块，接收来自周围环境的背景音信号；

步骤D：第二处理模块43分析得到第二识别结果：卧室；

步骤E：输出模块44综合分析得到最终识别结果：打开卧室的空调；按照存储装置的预设位置信息，向卧室的空调发出运行命令，令其开始启动、运行。

本发明通过在陪伴机器人的语音处理装置40中设置第一处理模块42和第二处理模块43，基于用户的语音和环境中的背景音识别用户的语音，旨在当用户发音不够完全或者不够清楚时，借助环境的识别结果来判断用户的真实意图，从而提升用户使用陪伴机器人的便利性，扩展陪伴机器人的应用范围。

参见图2所示，本发明实施例中，语音处理装置40包括语音侦听模块45，所述语音侦听模块包括爆破音采集单元、摩擦音采集单元和鼻音采集单元，所述第一处理模块42包括用于增强爆破音、摩擦音和鼻音震幅的增强单元。一般地，语音机器人中均包含语音侦听模块，该语音侦听模块可以是多个麦克风，用来采集用户的语音信息。本发明实施例考虑到老人或者发音困难的人群难以发出准确读音，在语音侦听模块中设置前述爆破音采集单元、摩擦音采集单元和鼻音采集单元，以提取语音中的爆破音、摩擦音和鼻音特征参数，以便根据这些参数识别用户语音。当然，还可以根据需要，设置其他语音特征参数，本发明在此仅是作为一个例子列举，并不做具体限定。本发明根据声母的不同特征，将其发音分为以下四类并进行建模：

爆破音(Plosive):发音时嘴唇紧闭后，吐出气流制造出类似爆破的声音。其声音震幅变化会先降至极小值后(代表嘴唇紧闭)，再急剧上升。

摩擦音(Fricative)：发音时，舌头紧贴硬颚，形成狭窄的信道，气流通过时造成湍流发生摩擦，由此发出声响。由于摩擦音时透过稳定输出气流，使得声音震幅变化相较于爆破音变化幅度较小。

爆擦音(Affricate)：此类型的发声模型兼具爆破音与摩擦音的发声特征。其主要发声构造如同摩擦音，是由舌头紧贴硬腭使气流通过时产生摩擦的声音。而其信道更加紧密，使得气流会在瞬间冲出，产生出如同爆破音般的特征。

鼻音(Nasal)：发音时，软腭会下压，下压后，由气管吐出的气流被阻塞，无法进入口腔，因而转往鼻腔。也因此鼻腔与口腔会产生共振。

本发明一实施例中，当用户发音时，语音侦听模块45获取用户语音信息中的爆破音、摩擦音和鼻音特征参数并将其与相应的预设模型进行比较；在所述爆破音、摩擦音或鼻音的震幅小于预设范围时，增强单元对其进行增强处理。这样即使用户发音不准确，也能准确识别用户的语音指令。例如，当获取到用户语音信息中的爆破音、摩擦音和鼻音特征参数后，将其与相应的预设模型进行比较，当爆破音、摩擦音或鼻音的震幅在预设范围内时，继续分析，进行下一个特征参数的比对和调整，直至所有参数全部比对和调整完成。

在一较佳实施例中，语音侦听模块45包括位于机器人头部的麦克风阵列。考虑到本发明陪伴机器人主要用于陪伴老人，因此，将语音侦听模块45设置在机器人的头部，以便采集老人发出的声音。如果是用于陪伴婴幼儿，可以将语音侦听模块45设置在较低的位置，与其身高匹配。

请继续参照图2，本发明实施例中，语音处理装置40还包括背景音侦听模块46，其中，所述背景音侦听模块46包括音源侦听单元，用于采集环境中预置音源发出的声音。考虑到一些环境的背景音模型可能极为相似或相同，还可预先在不同的环境设置用于识别环境的音源，例如，可以用风铃表示所处环境为客厅或者厨房，当用户在此环境发出语音指令时，第二处理模块43可以根据该环境音源发出的背景音识别出所处位置。

具体的，可以通过以下应用场景进一步理解本发明方案：

场景二：老人发出语音“开灯”即可打开其所处环境的灯。具体流程如下：

步骤A1：使用者向陪伴机器人发出语音命令：开灯；

步骤B1：陪伴机器人的语音处理装置40接收到用户的语音信号；

步骤C1：陪伴机器人的第一处理模块42分析得到第一识别结果：开灯，同时唤醒背景音侦听模块46，接收来自周围环境的背景音信号；

步骤D1：由于用户处于两个环境(例如客厅和厨房)之间，第二处理模块43获取客厅和厨房音源发出的声音，根据声音的不同分析得到第二识别结果：客厅；

步骤E1：陪伴机器人的输出模块44综合分析得到最终识别结果：打开客厅的灯；

步骤F1：陪伴机器人的网络装置，按照存储装置的预设位置信息，向客厅灯的开关发出命令，令其执行开灯命令。

在一较佳实施例中，背景音侦听模块46分体设置，分别位于机器人的头顶和底部。考虑到自然音源和用户自设音源位置的不同，本发明实施例中将背景音侦听模块46设置为多个，可以处于机器人的头顶、躯干和底部三个位置，从而接收不同位置音源发出的声音。

参见图3所示，为了进一步提升用户使用便利性，在本发明另一较佳实施例中，陪伴机器人还包括用于与用户进行数据交互的用户交互模块60，所述用户交互模块60包括触摸屏61和/或语音输出装置62，所述触摸屏用于通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备，所述语音输出装置用于通过语音向用户广播所述识别结果并接收用户的反馈信息。本发明一较佳实施例中，输出模块44还可用于将识别结果输出至用户交互模块60以供用户确认。本发明一较佳实施例中，该用户交互模块60包括触摸屏61和语音输出装置62，所述触摸屏61用于通过图文形式显示所述识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备，所述语音输出装置62用于通过语音向用户广播所述识别结果并接收用户的反馈信息。本发明的主要宗旨在于提升老人使用机器人的便利性，老人可通过语音与机器人之间进行交互，但有时因为语音识别的误差，可能不够准确，而老人的发音又比较简短或者干脆失声，此时需要借助其他辅助设备进行识别。例如，本发明一实施例中，用户发出的语音指令为打开空调，输出模块40未能准确识别出用户的语音指令，此时，可将多个结果发送至用户交互模块60，通过触摸屏61或者通过语音输出装置62通知用户，由用户进行确认，确认之后再执行打开空调的命令。

上述机器人还可包括视觉模块70，该视觉模块70用于获取用户的生物信息并进行识别，并将识别结果输出至所述用户交互模块以供用户确认。本发明实施例中，视觉模块70可获取用户的面部、肢体等生物信息，从而与语音信息结合判断用户的真是意图，从而进一步提升用户语音识别的准确性。例如，当通过视觉模块70获取到用户做出挥手动作，但是所发出的语音音量很小，此时机器人根据动作所对应的模型，识别出用户可能是要打开电视，但在卧室和客厅都有电视，此时，再获取用户所处环境的背景音，识别用户是再客厅，此时将“打开客厅电视”显示在机器人的触摸屏以供用户确认，当用户确认后即可发出遥控指令打开电视。

可以理解的是，上述机器人还可包括移动装置，所述移动装置设置在机器人的底部并与所述输出模块44电连接，用于在所述最终识别结果中包含移动命令时进行移动。例如，当用户发出的为“去客厅”的命令时，机器人通过设置在其底部的移动装置进行移动。

参见图4所示，为本发明一实施例中陪伴机器人的控制方法流程示意图，该方法流程可通过前述陪伴机器人实现。该方法流程包括以下步骤：

步骤S10，根据预先存储的语音模型对采集到的语音信息进行识别；本发明实施例中，可以在陪伴机器人中设置语音侦听装置，采集用户发出的语音信息。

步骤S20，根据预先存储的背景音模型对环境中的背景音进行识别；例如，通过语音芯片对背景音进行分析，根据声音的音量大小判断用户处于户外还是室内，进一步地的，还可以根据音量大小或者类型判断用户处于卧式、客厅还是厨房。

步骤S30，将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果。例如，步骤S10中，用户发出的是“开灯”的指令，步骤S20分析出陪伴机器人所处位置为“客厅”，则最终识别结果为“打开客厅灯”的指令，陪伴机器人通过网络等方式将该指令发送至客厅受控的装置(例如开关等)，从而打开客厅的灯。

应当说明的是，本发明实施例中，在执行所有步骤之前，还包括以下步骤：对用户的语音信息以及环境中的背景音进行训练并建模，形成语音模型和背景音模型并存储；本发明实施例中，采集发音困难或存在障碍人群的语音进行训练并建模，以便在应用时能正确识别用户发音。另外，采集室内室外的背景音并进行建模，以识别用户所处环境，例如，可在不同时段采集多个卧室环境的背景音并对其进行训练和建模并存储，用户在实际应用时即可提取背景音模型进行比对，从而确定用户所处环境。

本发明陪伴机器人基于用户的语音和环境中的背景音识别用户的语音，在当用户发音不够完全或者不够清楚时，借助环境的识别结果来判断用户的真实意图，从而提升用户使用陪伴机器人的便利性，扩展陪伴机器人的应用范围。

在一实施例中，当用户发音时，获取用户语音信息中的爆破音、摩擦音和鼻音特征参数并将其与相应的预设模型进行比较；在所述爆破音、摩擦音或鼻音的震幅小于预设范围时，对其进行增强处理。这样即使用户发音不准确，也能准确识别用户的语音指令。例如，当获取到用户语音信息中的爆破音、摩擦音和鼻音特征参数后，将其与相应的预设模型进行比较，当爆破音、摩擦音或鼻音的震幅在预设范围内时，继续分析，进行下一个特征参数的比对和调整，直至所有参数全部比对和调整完成。

为了进一步提升用户使用便利性，在本发明另一较佳实施例中，前述方法还包括：通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备。例如，本发明一实施例中，用户发出的语音指令为打开空调，输出模块未能准确识别出用户的语音指令，此时，可将多个结果发送至用户交互模块，通过触摸屏或者通过语音输出装置通知用户，由用户进行确认，确认之后再执行打开空调的命令。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种陪伴机器人，包括头部、躯干、底部和语音处理装置，其特征在于，所述语音处理装置包括用于对用户的语音信息以及环境中的背景音进行训练并建模，形成语音模型和背景音模型并存储的模型建立模块、用于根据语音模型对用户语音进行识别的第一处理模块、用于根据背景音模型对环境中的背景音进行识别的第二处理模块，以及用于将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果的输出模块；所述第二处理模块对背景音的识别结果包括所处位置，所述将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果包括：在用户发音不够完全或者不够清楚时，借助所述所处位置对所述语音识别结果进行补充，以得到最终识别结果；所述语音处理装置包括语音侦听模块，所述语音侦听模块包括爆破音采集单元、摩擦音采集单元和鼻音采集单元，所述第一处理模块包括用于增强爆破音、摩擦音和鼻音震幅的增强单元；所述语音侦听模块获取用户语音信息中的爆破音、摩擦音和鼻音特征参数并将其与相应的预设模型进行比较；在所述爆破音、摩擦音或鼻音的震幅小于预设范围时，所述增强单元对其进行增强处理。

2.根据权利要求1所述的陪伴机器人，其特征在于，所述语音处理装置包括背景音侦听模块，其中，所述背景音侦听模块包括音源侦听单元，用于采集环境中预置音源发出的声音。

3.根据权利要求1所述的陪伴机器人，其特征在于，所述语音侦听模块包括位于机器人头部的麦克风阵列；所述背景音侦听模块分体设置，分别位于机器人的头顶和底部。

4.根据权利要求1所述的陪伴机器人，其特征在于，还包括用于与用户进行数据交互的用户交互模块，所述用户交互模块包括触摸屏和/或语音输出装置，所述触摸屏用于通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备，所述语音输出装置用于通过语音向用户广播所述识别结果并接收用户的反馈信息。

5.根据权利要求4所述的陪伴机器人，其特征在于，还包括视觉模块，所述视觉模块用于获取用户的生物信息并进行识别，并将识别结果输出至所述用户交互模块以供用户确认。

6.根据权利要求1至5中任一项所述的陪伴机器人，其特征在于，还包括移动装置，所述移动装置设置在机器人的底部并与所述输出模块电连接，用于在所述最终识别结果中包含移动命令时进行移动。

7.一种陪伴机器人的控制方法，其特征在于，包括：

根据预先存储的语音模型对采集到的语音信息进行识别；

根据预先存储的背景音模型对环境中的背景音进行识别；

将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果；

所述第二处理模块对背景音的识别结果包括所处位置；

所述将对语音的识别结果和对背景音的识别结果进行结合并输出最终识别结果包括：

在用户发音不够完全或者不够清楚时，借助所述所处位置对所述语音识别结果进行补充，以得到最终识别结果；

所述根据预先存储的语音模型对采集到的语音信息进行识别包括：

8.根据权利要求7所述的陪伴机器人的控制方法，其特征在于，还包括：通过图文形式显示所述最终识别结果供用户确认，并在用户确认后将所述识别结果输出至外部设备。