CN117116263A

CN117116263A - 一种基于语音识别的智能机器人唤醒方法、装置及存储介质

Info

Publication number: CN117116263A
Application number: CN202311191793.5A
Authority: CN
Inventors: 赵毅勇
Original assignee: Guangzhou Yiyun Information Technology Co ltd
Current assignee: Guangzhou Yiyun Information Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-11-24
Anticipated expiration: 2043-09-15
Also published as: CN117116263B

Abstract

本申请公开了一种基于语音识别的智能机器人唤醒方法、装置及存储介质，涉及语音识别技术领域。该方法包括：读取当前模式状态：智能机器人实时获取当前的模式状态；语音拾取：对环境语音进行拾取，并对拾取到的环境语音中的每个语音片段进行语音整合，使相同声纹特征的语音片段被整合作为一个语音信息；指令匹配：对语音信息进行字段提取，将该字段提取结果与预设的唤醒指令进行匹配；执行唤醒指令：当字段提取结果与预设的唤醒指令匹配成功时，智能机器人执行该唤醒指令。该装置及该存储介质均适用于该方法。本申请，确保了智能机器人能够在环境语音嘈杂的情况下准确地响应唤醒的能力，提高了用户使用体验。

Description

一种基于语音识别的智能机器人唤醒方法、装置及存储介质

技术领域

本申请涉及语音识别技术领域，具体是一种基于语音识别的智能机器人唤醒方法、装置及存储介质。

背景技术

智能设备的应用，对于人们的生活、工作产生了重大而意义。如智能音箱，已经跳出了传统音箱的范畴，其不单单具有传统音箱的语音播放功能，还能够与智能家居联动进行家具控制，以及能够与使用者进行语音交互以辅助使用者进行工作、学习等。

智能机器人是一种典型的智能设备，而现有的智能机器人的响应方式，多是采用定时设置或是按键操作来对机器人进行唤醒，也有部分采用语音唤醒的方式来唤醒机器人，但是，不论是定时设置或者是按键操作，都存在步骤繁琐、智能化体现低的情况，而现有的语音唤醒方式，则容易受到环境中的声音影响，从而导致响应效率低下甚至是无法响应或错误响应的情况。因此，亟需一种可靠的智能机器人语音唤醒技术。

发明内容

本申请的目的在于提供一种基于语音识别的智能机器人唤醒方法、装置及存储介质，以解决上述背景技术中提出的技术问题。

为实现上述目的，本申请公开了以下技术方案：

第一方面，本申请提供了一种基于语音识别的智能机器人唤醒方法，该方法包括以下步骤：

读取当前模式状态：智能机器人实时获取当前的模式状态，所述模式状态包括：表示允许被唤醒的响应模式和表示不允许被唤醒的免打扰模式；当所述智能机器人当前的模式状态为所述响应模式时，进入之后的步骤；

语音拾取：对环境语音进行拾取，并对拾取到的环境语音中的每个语音片段进行语音整合，使相同声纹特征的语音片段被整合作为一个语音信息；

指令匹配：对所述语音信息进行字段提取，将该字段提取结果与预设的唤醒指令进行匹配；

执行唤醒指令：当字段提取结果与预设的唤醒指令匹配成功时，所述智能机器人执行该唤醒指令。

作为优选，在所述语音拾取之后，该方法还包括：语音操作权限分析；所述的语音操作权限分析具体包括：

对所述语音信息进行声纹分析，获取该语音信息的声纹对应的声纹特征；

基于获取的声纹特征分析该环境语音对应的语音发出人的操作权限；

当该环境语音对应的语音发出人具有唤醒所述智能机器人的操作权限时，执行后续的字段提取。

作为优选，在设置所述响应模式时，包括基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

作为优选，所述字段提取具体包括：

将所述语音信息转换为文字信息；

基于预设的遍历特征对所述文字信息进行遍历检索；

当遍历检索到对应的遍历特征时，将该遍历特征作为需要提取的字段进行标记和提取。

作为优选，所述遍历特征包括唤醒指令对应的完整的第一文字特征或若干个任意长度的文字排序后组成的第二文字特征；

当采用所述第一文字特征进行遍历时，当所述语音信息对应的文字信息中存在该第一文字特征时，将该第一文字特征作为需要提取的字段进行提取，否则，表示该语音信息为不具有唤醒需求的环境语音，并丢弃该语音信息；

当采用所述第二文字特征进行遍历时，依次采用组成该第二文字特征的文字对文字信息进行遍历，其中，当文字A被遍历检索到后，并自该文字信息中被遍历检索到该文字A之后的文字内容采用该文字A之后的文字进行遍历检索，当该第二文字特征被全部提取到后，表示该语音信息为具有唤醒需求的环境语音，否则，丢弃该语音信息。

作为优选，在所述遍历检索的过程中，基于所述第一文字特征或所述第二文字特征，对文字信息进行语义分析，获取所述文字信息中与所述第一文字特征或所述第二文字特征相接近的近似文字，并计算该近似文字对应的所述第一文字特征或所述第二文字特征之间的近似度ρ，将计算得到的近似度ρ与预设的评价阈值P进行比对，当ρ≥P时，将该近似文字作为需要提取的字段进行提取。

第二方面，本申请提供了一种基于语音识别的智能机器人唤醒装置，包括：模式设置模块、语音拾取模块、语音识别模块、指令数据库以及指令执行模块；

所述模式设置模块配置为：对智能机器人的模式状态进行设置，所述模式状态包括：表示允许被唤醒的响应模式和表示不允许被唤醒的免打扰模式；

所述语音拾取模块配置为：所述智能机器人对环境语音进行拾取；

所述语音识别模块配置为：所述智能机器人对拾取到的环境语音中的每个语音片段进行语音整合，使相同声纹特征的语音片段被整合作为一个语音信息，还配置为：对所述语音信息进行字段提取，将该字段提取结果与所述指令数据库中预设的唤醒指令进行匹配；

所述指令数据库配置为：用于存储唤醒所述智能机器人的唤醒指令；

所述指令执行模块配置为：所述智能机器人响应并执行唤醒指令。

作为优选，所述语音识别模块还配置为：在对所述语音信息进行字段提取之前，对所述语音信息进行声纹分析，获取该语音信息的声纹对应的声纹特征，基于获取的声纹特征分析该环境语音对应的语音发出人的操作权限，当该环境语音对应的语音发出人具有唤醒所述智能机器人的操作权限时，执行字段提取。

作为优选，所述模式设置模块还配置为：基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

第三方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质上存储有能够被处理器执行的计算机程序，当该计算机程序被所述处理器执行时，实现如上所述的基于语音识别的智能机器人唤醒方法。

有益效果：本申请的基于语音识别的智能机器人唤醒方法、装置及存储介质，通过对机器人的模式状态的设置，准确地使机器人对应的工作状态，从而避免响应紊乱的情况出现，进一步地，通过对环境语音的拾取，并对拾取到的环境语音中的每个语音片段进行语音整合，使相同声纹特征的语音片段被整合作为一个语音信息，再通过对语音信息的分析确认该语音信息是否对应有相应的唤醒指令，实现了精准的语音定位、识别和分析流程，确保了智能机器人能够在环境语音嘈杂的情况下准确地响应唤醒的能力，提高了用户使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中基于语音识别的智能机器人唤醒方法的流程示意图；

图2为本申请实施例中基于语音识别的智能机器人唤醒装置的结构框图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本实施例公开了如图1所示的一种基于语音识别的智能机器人唤醒方法，该方法包括以下步骤：

语音操作权限分析；所述的语音操作权限分析具体包括：对所述语音信息进行声纹分析，获取该语音信息的声纹对应的声纹特征；基于获取的声纹特征分析该环境语音对应的语音发出人的操作权限；当该环境语音对应的语音发出人具有唤醒所述智能机器人的操作权限时，执行后续的字段提取；

在本实施例中，在设置所述响应模式时，包括基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

作为本实施例的一种优选地实施方式，所述字段提取具体包括：

将所述语音信息转换为文字信息；

基于预设的遍历特征对所述文字信息进行遍历检索；

其中，所述遍历特征包括唤醒指令对应的完整的第一文字特征或若干个任意长度的文字排序后组成的第二文字特征；

这样设置的好处是，基于依次排序设置的文字进行遍历，并在遍历检索到后对之后的文字信息进行遍历检索，能够提高遍历检索效率，从而降低智能机器人的运算压力。

进一步地，在所述遍历检索的过程中，基于所述第一文字特征或所述第二文字特征，对文字信息进行语义分析，获取所述文字信息中与所述第一文字特征或所述第二文字特征相接近的近似文字，并计算该近似文字对应的所述第一文字特征或所述第二文字特征之间的近似度ρ，将计算得到的近似度ρ与预设的评价阈值P进行比对，当ρ≥P时，将该近似文字作为需要提取的字段进行提取。

本实施例还公开了如图2所示的一种基于语音识别的智能机器人唤醒装置，包括：模式设置模块、语音拾取模块、语音识别模块、指令数据库以及指令执行模块。

具体的，所述模式设置模块配置为：对智能机器人的模式状态进行设置，所述模式状态包括：表示允许被唤醒的响应模式和表示不允许被唤醒的免打扰模式。

具体的，所述语音拾取模块配置为：所述智能机器人对环境语音进行拾取。

具体的，所述语音识别模块配置为：所述智能机器人对拾取到的环境语音中的每个语音片段进行语音整合，使相同声纹特征的语音片段被整合作为一个语音信息，还配置为：对所述语音信息进行字段提取，将该字段提取结果与所述指令数据库中预设的唤醒指令进行匹配。

具体的，所述指令数据库配置为：用于存储唤醒所述智能机器人的唤醒指令。

具体的，所述指令执行模块配置为：所述智能机器人响应并执行唤醒指令。

其中，所述语音识别模块还配置为：在对所述语音信息进行字段提取之前，对所述语音信息进行声纹分析，获取该语音信息的声纹对应的声纹特征，基于获取的声纹特征分析该环境语音对应的语音发出人的操作权限，当该环境语音对应的语音发出人具有唤醒所述智能机器人的操作权限时，执行字段提取。所述模式设置模块还配置为：基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

需要说明的是，本实施例中公开的基于语音识别的智能机器人唤醒装置适用于前述的基于语音识别的智能机器人唤醒方法，因此，本装置中的各模块的其他功能及运行方法，可以参考前述在基于语音识别的智能机器人唤醒方法中的相关描述，本文本在此不做赘述。

本实施例在第三方面公开了一种计算机可读存储介质，该计算机可读存储介质上存储有能够被处理器执行的计算机程序，当该计算机程序被所述处理器执行时，实现如上所述的基于语音识别的智能机器人唤醒方法。

在本申请所提供的实施例中，应该理解到，可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现，处理器可以在一个或多个下列单元中实现：专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现，实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时，可以将上述程序存储在计算机可读存储介质中或作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读存储介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

最后应说明的是：以上所述仅为本申请的优选实施例而已，并不用于限制本申请，尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语音识别的智能机器人唤醒方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于语音识别的智能机器人唤醒方法，其特征在于，在所述语音拾取之后，该方法还包括：语音操作权限分析；所述的语音操作权限分析具体包括：

3.根据权利要求2所述的基于语音识别的智能机器人唤醒方法，其特征在于，在设置所述响应模式时，包括基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

4.根据权利要求1所述的基于语音识别的智能机器人唤醒方法，其特征在于，所述字段提取具体包括：

将所述语音信息转换为文字信息；

基于预设的遍历特征对所述文字信息进行遍历检索；

5.根据权利要求4所述的基于语音识别的智能机器人唤醒方法，其特征在于，所述遍历特征包括唤醒指令对应的完整的第一文字特征或若干个任意长度的文字排序后组成的第二文字特征；

6.根据权利要求5所述的基于语音识别的智能机器人唤醒方法，其特征在于，在所述遍历检索的过程中，基于所述第一文字特征或所述第二文字特征，对文字信息进行语义分析，获取所述文字信息中与所述第一文字特征或所述第二文字特征相接近的近似文字，并计算该近似文字对应的所述第一文字特征或所述第二文字特征之间的近似度ρ，将计算得到的近似度ρ与预设的评价阈值P进行比对，当ρ≥P时，将该近似文字作为需要提取的字段进行提取。

7.一种基于语音识别的智能机器人唤醒装置，其特征在于，包括：模式设置模块、语音拾取模块、语音识别模块、指令数据库以及指令执行模块；

8.根据权利要求7所述的基于语音识别的智能机器人唤醒装置，其特征在于，所述语音识别模块还配置为：在对所述语音信息进行字段提取之前，对所述语音信息进行声纹分析，获取该语音信息的声纹对应的声纹特征，基于获取的声纹特征分析该环境语音对应的语音发出人的操作权限，当该环境语音对应的语音发出人具有唤醒所述智能机器人的操作权限时，执行字段提取。

9.根据权利要求8所述的基于语音识别的智能机器人唤醒装置，其特征在于，所述模式设置模块还配置为：基于声纹特征设置该响应模式下语音发出人对应的操作权限，所述操作权限包括：在语音发出人发出语音并与唤醒指令匹配成功时，所述智能机器人允许执行该唤醒指令。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有能够被处理器执行的计算机程序，当该计算机程序被所述处理器执行时，实现如权利要求1-6任意一项所述的基于语音识别的智能机器人唤醒方法。