CN107742516B

CN107742516B - 智能识别方法、机器人及计算机可读存储介质

Info

Publication number: CN107742516B
Application number: CN201710909101.4A
Authority: CN
Inventors: 李承敏; 王文斌; 包振毅; 周金虎; 禹杰; 李亚军; 林虎; 安丽朋; 黄俊岚; 叶巧莉; 余登武
Original assignee: Shanghai Wangchao Data Technology Co Ltd
Current assignee: Shanghai Wangchao Data Technology Co ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2020-11-17
Anticipated expiration: 2037-09-29
Also published as: CN107742516A; CN111968643A

Abstract

本发明实施例涉及智能机器人领域，公开了一种智能识别方法、机器人及计算机可读存储介质。本发明中，获取发声者在第一次回答预设问题时的第一语音信息；获取发声者在第二次回答预设问题时的第二语音信息；检测第一语音信息与第二语音信息的相似度；如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人，使得机器人在接收到指令时，能判断发出指令的是自然人还是机器人，从而准确地执行自然人发出的指令。

Description

智能识别方法、机器人及计算机可读存储介质

技术领域

本发明实施例涉及智能机器人领域，特别涉及一种智能识别方法、机器人及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，简称“AI”)，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着人工智能时代的到来，机器人的数量日益增多，在生活中、工作中都能看到机器人的存在，它给人类的生活带来了很多便利。

然而，发明人发现现有技术中至少存在如下问题：随着机器人数量的增多以及机器人在生活中扮演的角色越来越多，在很多时候，当其他机器人向某个机器人发出语音指令时，该机器人无法区分语音指令是其他机器人还是自然人发出的，容易造成机器人错误执行某项指令。

发明内容

本发明实施方式的目的在于提供一种智能识别方法和机器人，使得机器人在接收到语音指令时能区分语音指令是机器人发出的还是自然人发出的，从而准确地执行自然人发出的指令。

为解决上述技术问题，本发明的实施方式提供了一种智能识别方法，包括：

获取发声者在第一次回答预设问题时的第一语音信息；

获取发声者在第二次回答预设问题时的第二语音信息；

检测第一语音信息与第二语音信息的相似度；

如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人。

本发明的实施方式还提供了一种机器人，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的智能识别方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述的智能识别方法。

本发明实施方式相对于现有技术而言，通过获取发声者在第一次回答预设问题时的第一语音信息；获取发声者在第二次回答预设问题时的第二语音信息；得到发声者在两次回答同一个预设问题的语音信息，有利于对第一语音信息和第二语音信息进行有效的对比。通过检测第一语音信息与第二语音信息的相似度；如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人。由于机器人在重复同一句话时，语音的相似度极高，而自然人在重复同一句话时，语音的相似度较低。因此通过判断第一语音信息与第二语音信息的相似度可以准确的识别发声者是否为机器人。

另外，在获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：接收语音指令。通过在接收到语音指令后，再识别发声者是自然人还是机器人，有利于在确定接收到语音指令后，才触发对发声者进行识别的操作，从而避免在接收到非语音指令的语音信息时，对发声者做出不必要的识别操作。

另外，检测第一语音信息与第二语音信息的相似度，具体包括：将第一语音信息的频率和第二语音信息的频率进行比较；如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人，具体包括：如果第一语音信息的频率和第二语音信息的频率的相似度大于预设阈值，则将发声者识别为机器人。因为每一段语音都会对应一个频率值，而机器人在两次回答同一个问题时，相似度很高，因此，将第一语音信息的频率和第二语音信息的频率进行比较，如果第一语音信息的频率和第二语音信息的频率的相似度大于预设阈值，则将发声者识别为机器人。通过两段语音信息频率的比较，可以更准确的识别发声者是自然人还是机器人。

另外，在检测第一语音信息与第二语音信息的相似度之后，还包括：如果第一语音信息与第二语音信息的相似度小于预设阈值，则将发声者识别为自然人；在将发声者识别为自然人后，执行语音指令。通过将发声者识别为自然人之后，再执行语音指令，有利于提高执行语音指令的有效性，避免了因执行机器人的指令而造成不必要的麻烦。

另外，在检测第一语音信息与第二语音信息的相似度之后，还包括：如果第一语音信息与第二语音信息的相似度小于预设阈值，则将发声者识别为自然人；在将发声者识别为自然人后，判断语音指令在当前环境下是否具备可行性；在语音指令在当前环境下具备可行性时，执行语音指令。通过在执行语音指令之前，判断语音指令在当前环境下是否具备可行性，在具备可行性时再执行语音指令，有利于保证执行指令的机器人的安全。

另外，在获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：检测语音指令中是否携带底噪；如果语音指令中未携带底噪，则再执行获取发声者在第一次回答预设问题时的第一语音信息；如果检测到语音中携带底噪，则将发声者识别为机器人。由于机器人发出的语音中可以加入底噪，但自然人的语音中不存在该标志，因此，通过检测语音指令中是否携带底噪，可以准确的判断出发出指令的是自然人还是机器人，使识别过程更加简单、便捷。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式中的智能识别方法的流程图；

图2是根据本发明第二实施方式中的智能识别方法的流程图；

图3是根据本发明第三实施方式中的智能识别方法的流程图；

图4是根据本发明第四实施方式中的智能识别方法的流程图；

图5是根据本发明第五实施方式中机器人的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种智能识别方法，应用于机器人。本实施方式的核心在于，获取发声者在第一次回答预设问题时的第一语音信息；获取发声者在第二次回答预设问题时的第二语音信息；检测第一语音信息与第二语音信息的相似度；如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人。由于机器人在重复一句话时，语音的相似度极高，而自然人在重复同一句话时，语音的相似度较低。因此通过判断第一语音信息与第二语音信息的相似度可以准确的识别发声者是否为机器人，有利于提高机器人的智能性。下面对本实施方式的智能识别方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的智能识别方法如图1所示，具体包括：

步骤101：获取发声者在第一次回答预设问题时的第一语音信息。

具体地说，机器人可以对发声者提出一个预设问题，预设问题可以是根据用户的要求提前设置的。比如说用户设置的预设问题可以是“你是谁”，那么发声者需要对这一问题进行回答，机器人在发声者第一次回答这个问题时，获取发声者在第一次回答预设问题时的第一语音信息。

步骤102：获取所述发声者在第二次回答所述预设问题时的第二语音信息。

具体地说，机器人在获取发声者在第一次回答预设问题时的第一语音信息后，会再次提出和第一次相同的问题。比如说，步骤101中机器人第一次提出了“你是谁”的问题，那么在发声者回答问题后，机器人会第二次提出“你是谁”的问题，发声者需要对这一问题进行第二次回答，机器人在发声者第二次回答这个问题时，获取发声者在第二次回答预设问题时的第二语音信息。

步骤103：检测第一语音信息与第二语音信息的相似度。

具体地说，机器人可以根据获取的第一语音信息和第二语音信息的相似度来判断发声者的身份。机器人可以将第一语音信息的频率和第二语音信息的频率进行比较，从而得到第一语音信息与第二语音信息的相似度。可以理解的是当第一语音信息的频率和第二语音信息的频率相近时，认为相似度较高；当第一语音信息的频率和第二语音信息的频率相差较大时，认为相似度较低。机器人还可以将第一语音信息的波形和第二语音信息的波形进行比较，从而得到第一语音信息与第二语音信息的相似度。波形同时体现了语音信息的频率和振幅，能够更准确的反映第一语音信息与第二语音信息的相似度。可以理解的是当第一语音信息的波形和第二语音信息的波形相近时，认为相似度较高；当第一语音信息的波形和第二语音信息的波形相差较大时，认为相似度较低。

步骤104：判断相似度是否大于预设阈值，如果是，则执行步骤105，如果否，则执行步骤106。

具体地说，机器人会判断第一语音信息与第二语音信息的相似度是否大于预设阈值，预设阈值可以由本领域技术人员基于不同机器人的性能所设定。比如说预设阈值为95％，那么当机器人判断第一语音信息与第二语音信息的相似度大于95％时，执行步骤105，否则执行步骤106。如果机器人采用检测到的第一语音信息的频率和第二语音信息的频率得到相似度，那么当机器人判断第一语音信息的频率与第二语音信息的频率的相似度大于95％时，即第一语音信息的频率与第二语音信息的频率十分接近，则执行步骤105，否则执行步骤106。如果机器人采用检测到的第一语音信息的波形和第二语音信息的波形得到相似度，那么当机器人判断第一语音信息的波形与第二语音信息的波形的相似度大于95％时，即第一语音信息的波形与第二语音信息的波形几乎可以重合，则执行步骤105，否则执行步骤106。

步骤105：将发声者识别为机器人。

具体地说，如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人。因为机器人在回答预设问题时，通常是在预先存储的数据库中搜索与预设问题对应的答案，因此，两次回答问题的语音信息几乎是一摸一样的。而自然人在两次重复回答同一个问题时很难做到一模一样，语速、语音、语调都会存在一定程度上的差异，可能还会因为重复回答相同的问题带有不同的情绪，而且自然人在回答同一个问题时，可能还会出现不同的答案。这就会使两次语音信息的频率或是波形不可避免的存在差异。所以在第一语音信息与第二语音信息的相似度大于预设阈值时，可以将发声者识别为机器人。

步骤106：将发声者识别为自然人。

比如说，第一语音信息与第二语音信息的相似度小于预设阈值时，说明第一语音信息与第二语音信息相差较大，机器人可以将发声者识别为自然人。

与现有技术相比，本发明实施方式通过获取发声者在第一次回答预设问题时的第一语音信息；获取发声者在第二次回答预设问题时的第二语音信息；得到发声者在两次回答同一个预设问题的语音信息，有利于对第一语音信息和第二语音信息进行有效的对比。通过检测第一语音信息与第二语音信息的相似度；如果第一语音信息与第二语音信息的相似度大于预设阈值，则将发声者识别为机器人。由于机器人在重复一句话时，相似度极高，而自然人在重复同一句话时，相似度较低。因此通过判断第一语音信息与第二语音信息的相似度可以准确的识别发声者是否为机器人，有利于提高机器人的智能性。因为每一段语音都会对应一个频率值，而机器人在两次回答同一个问题时，相似度很高，因此，将第一语音信息的频率和第二语音信息的频率进行比较，如果第一语音信息的频率和第二语音信息的频率的相似度大于预设阈值，则将发声者识别为机器人。通过两段语音信息频率的比较，可以有效的识别发声者是自然人还是机器人。由于波形不仅涵盖了语音信息的频率还涵盖了语音信息的振幅，因此通过两段语音信息波形的比较，可以更有效的识别发声者是自然人还是机器人。

本发明的第二实施方式涉及一种智能识别方法。第二实施方式是第一实施方式的进一步改进，主要改进之处在于：本发明第二实施方式中，在获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：接收语音指令。在将发声者识别为自然人后，执行语音指令。本实施方式中的智能识别方法如图2所示，具体包括：

步骤201：接收语音指令。

具体地说，机器人可以先接收发声者的语音指令，这里的语音指令指的是发声者命令机器人执行的相关指令。比如说发声者发出开门、关门等语音指令，机器人接收到这些语音指令后，即确定收到的语音信息是发声者发出的语音指令时，触发对发声者是自然人还是机器人的识别的相关操作。也就是说，在接收语音指令后开始执行步骤202。

步骤202：获取发声者在第一次回答预设问题时的第一语音信息。

步骤203：获取所述发声者在第二次回答所述预设问题时的第二语音信息。

步骤204：检测第一语音信息与第二语音信息的相似度。

步骤205：判断相似度是否大于预设阈值，如果是，则执行步骤206，如果否，则执行步骤207。

步骤206：将发声者识别为机器人。

步骤207：将发声者识别为自然人。

本发明第二实施方式中步骤202至步骤207，分别与第一实施方式中步骤101至步骤106大致相同，为避免重复在此不再赘述。

步骤208：执行语音指令。

具体地说，在机器人将发声者识别为自然人后，机器人执行发声者发出的语音指令。比如说，发声者对机器人发出“开门”这一语音指令，机器人对发声者的身份进行识别，如果发声者被识别为机器人，则机器人不执行语音指令，即不去“开门”；如果发声者被识别为自然人，则机器人执行语音指令，即去“开门”。

与现有技术相比，本发明实施方式通过在接收到语音指令后，再识别发声者是自然人还是机器人，有利于在确定接收到语音指令后，才触发对发声者进行识别的操作，从而避免在接收到非语音指令的语音信息时，对发声者做出不必要的识别操作。通过将发声者识别为自然人之后，再执行语音指令，有利于提高执行语音指令的有效性，避免了因执行机器人的指令而造成不必要的麻烦。

本发明的第三实施方式涉及一种智能识别方法。第三实施方式是第二实施方式的进一步改进，主要改进之处在于：在获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：检测语音指令中是否携带底噪；如果语音指令中未携带底噪，则再执行获取发声者在第一次回答预设问题时的第一语音信息；如果检测到语音中携带底噪，则将发声者识别为机器人。本实施方式中的智能识别方法如图3所示，具体包括：

步骤301：接收语音指令。

本实施方式中步骤301与第二实施方式中步骤201大致相同，为避免重复在此不再赘述。

步骤302：检测语音指令中是否携带底噪，如果是，则执行步骤307，如果否，则执行步骤303。

具体地说，机器人的语音指令中可以预先添加底噪，添加的方法就是添加一个声音，类似于，我是机器人，我型号是001，我说话了，这句话时长1分钟，把这段内容和正常语音一起播放出去即可。比如说，在传达语音指令的时候，机器人会连同底噪一同播放，无需传达语音指令时，底噪就暂停播放，因为底噪和语音指令同时播放和暂停，所以可以很简单的区分语音指令中是否携带底噪。底噪可以增加到人类不可能发声的低频区间，比如20HZ-50HZ之间，这样的噪音是只有机器人才能发出的超低频率的声音，自然人是发不出超低频率的声音的。因此，如果机器人检测到接收到的语音指令中携带底噪，则可以直接判断出发声者就是机器人。

步骤303：获取发声者在第一次回答预设问题时的第一语音信息。

步骤304：获取所述发声者在第二次回答所述预设问题时的第二语音信息。

步骤305：检测第一语音信息与第二语音信息的相似度。

步骤306：判断相似度是否大于预设阈值，如果是，则执行步骤307，如果否，则执行步骤308。

步骤307：将发声者识别为机器人。

步骤308：将发声者识别为自然人。

步骤309：执行语音指令。

本发明第二实施方式中步骤303至步骤309，分别与第二实施方式中步骤202至步骤208大致相同，为避免重复在此不再赘述。

现有技术相比，本发明实施方式通过检测语音指令中是否携带底噪；如果语音指令中未携带底噪，则再执行获取发声者在第一次回答预设问题时的第一语音信息；如果检测到语音中携带底噪，则将发声者识别为机器人。由于机器人发出的语音中可以加入底噪，但自然人的语音中不存在该标志，因此，通过检测语音指令中是否携带底噪，可以判断出发出指令的是自然人还是机器人，使识别过程更加简单、便捷。

本发明的第四实施方式涉及一种智能识别方法。第四实施方式是第二实施方式的进一步改进，主要改进之处在于：本发明第四实施方式中，在将发声者识别为自然人后，判断语音指令在当前环境下是否具备可行性；在语音指令在当前环境下具备可行性时，执行语音指令。本实施方式中的智能识别方法如图4所示，具体包括：

步骤401：接收语音指令。

步骤402：获取发声者在第一次回答预设问题时的第一语音信息。

步骤403：获取所述发声者在第二次回答所述预设问题时的第二语音信息。

步骤404：检测第一语音信息与第二语音信息的相似度。

步骤405：判断相似度是否大于预设阈值，如果是，则执行步骤406，如果否，则执行步骤407。

步骤406：将发声者识别为机器人。

步骤407：将发声者识别为自然人。

本发明第四实施方式中步骤401至步骤407，分别与第二实施方式中步骤201至步骤207大致相同，为避免重复在此不再赘述。

步骤408：判断语音指令在当前环境下是否具备可行性，如果是，则执行步骤409，如果否，则该流程结束。

具体地说，在机器人将发声者识别为自然人之后，还要判断语音指令在当前环境下是否具备可行性，在具备可行性的前提下，执行指令。比如说，机器人收到“向前走”的指令，但如果执行“向前走”的指令，可能会有撞墙的可能性，此时机器人会判定“向前走”这一语音指令在当前环境下并不具备可行性，因此不会执行指令，从而保证了机器人自身的安全。

与现有技术相比，本发明实施方式通过在执行语音指令之前，判断语音指令在当前环境下是否具备可行性，在具备可行性时再执行语音指令，有利于保证执行指令的机器人的安全。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第五实施方式涉及一种机器人，如图5所示，包括：

至少一个处理器501；以及，

与至少一个处理器501通信连接的存储器502；其中，

存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行如上所述的智能识别方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第六实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种智能识别方法，其特征在于，包括：

获取发声者在第一次回答预设问题时的第一语音信息；

获取所述发声者在第二次回答所述预设问题时的第二语音信息；

检测所述第一语音信息与所述第二语音信息的相似度；

如果所述第一语音信息与所述第二语音信息的相似度大于预设阈值，则将所述发声者识别为机器人；

在所述获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：

接收语音指令；

所述检测所述第一语音信息与所述第二语音信息的相似度，具体包括：

将第一语音信息的频率和第二语音信息的频率进行比较；

所述如果所述第一语音信息与所述第二语音信息的相似度大于预设阈值，则将所述发声者识别为机器人，具体包括：

如果所述第一语音信息的频率和所述第二语音信息的频率的相似度大于预设阈值，则将所述发声者识别为机器人；

所述检测所述第一语音信息与所述第二语音信息的相似度，具体包括；

将第一语音信息的波形和第二语音信息的波形进行比较；

如果所述第一语音信息的波形和所述第二语音信息的波形的相似度大于预设阈值，则将所述发声者识别为机器人。

2.根据权利要求1所述的智能识别方法，其特征在于，在所述检测所述第一语音信息与所述第二语音信息的相似度之后，还包括：

如果所述第一语音信息与所述第二语音信息的相似度小于预设阈值，则将所述发声者识别为自然人；

在将所述发声者识别为自然人后，执行所述语音指令。

3.根据权利要求1所述的智能识别方法，其特征在于，在所述检测所述第一语音信息与所述第二语音信息的相似度之后，还包括：

在所述将所述发声者识别为自然人后，判断所述语音指令在当前环境下是否具备可行性；

在所述语音指令在当前环境下具备可行性时，执行所述语音指令。

4.根据权利要求1所述的智能识别方法，其特征在于，在所述获取发声者在第一次回答预设问题时的第一语音信息之前，还包括：

检测所述语音指令中是否携带底噪；

如果所述语音指令中未携带底噪，则再执行所述获取发声者在第一次回答预设问题时的第一语音信息；

如果检测到所述语音中携带底噪，则将所述发声者识别为机器人。

5.一种机器人，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一所述的智能识别方法。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的智能识别方法。