CN111078010B

CN111078010B - 一种人机交互方法、装置、终端设备及可读存储介质

Info

Publication number: CN111078010B
Application number: CN201911247228.XA
Authority: CN
Inventors: 郑志华; 萧联汉; 詹天杰; 蓝伟杰; 梁卓豪
Original assignee: Zhiyu Technology Jiangmen Co ltd
Current assignee: Zhiyu Technology Jiangmen Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-03-14
Anticipated expiration: 2039-12-06
Also published as: CN111078010A

Abstract

本发明实施例提供一种人机交互方法、装置、终端设备及可读存储介质，所述方法包括，采集当前环境的音频数据和/或视频数据；根据所述音频数据和/或所述视频数据对当前说话者进行识别，并根据当前说话者识别的数量确定回答的称谓；将所述音频数据和/或所述视频数据，转换成文本数据，并对所述文本数据进行关键内容识别；根据所述关键内容识别结果和确定回答的称谓，从知识库中提取对应的音频数据和/或视频数据进行答复。本发明满足一对一和一对多的人机交互情景，且能够准确地、系统地完成人机交互。

Description

一种人机交互方法、装置、终端设备及可读存储介质

技术领域

本发明属于机器人领域，尤其涉及一种人机交互方法、装置、终端设备及可读存储介质。

背景技术

现有技术下，并没有聊天机器人能通过图灵测试，虽然聊天机器人可以尽量建立丰富的知识，但语音聊天机器人主要是通过扫描语音里的关键词，然后从数据库里找些最相近的关键词，或类似的词语来回答，并不能正确而有系统性地与人交谈，并教授学习某领域的知识。

现有的语音聊天机器人并不侧重于识别说话者，因其设计目的是为了理解对话的内容，而不是在识别说话者上，所以在应用上比较偏向于单对单的对话，此外，也会易受环境的因素影响，在有其他人说话的环境下会混淆对话内容。另外，在多人的对话中，没有识别说话者的功能，将妨碍语音聊天机器人成为一个能分辨不同学生答问的智能导师。

发明内容

针对上述问题，本发明的目的在于提供一种人机交互方法、装置、终端设备及可读存储介质，满足一对一和一对多的人机交互情景，且能够准确地、系统地完成人机交互。

为了解决上述技术问题：

第一方面，本发明实施例提供一种人机交互方法，包括：

采集当前环境的音频数据和/或视频数据；

根据所述音频数据和/或所述视频数据对当前说话者进行识别，并根据当前说话者识别的数量确定回答的称谓；

将所述音频数据和/或所述视频数据，转换成文本数据，并对所述文本数据进行关键内容识别；

根据所述关键内容识别结果和确定回答的称谓，从知识库中提取对应的音频数据和/或视频数据进行答复。

优选地，所述根据所述音频数据和/或所述视频数据对当前说话者进行识别，包括：

采用说话者自动分段标记，从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话；

对所述视频数据进行预处理，减少环境对人脸识别的干扰，并确定脸孔个数，提取人脸特征；

根据说话者自动分段标记结果和所述脸孔个数、所述人脸特征，确定说话者。

优选地，所述采用说话者自动分段标记，从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话，包括：

所述音频数据作为输入，采用无界交错状态递归神经网络，通过对受监督的说话者标签，并利用交错时间中不同的无界交错状态递归神经网络状态来区分说话者；或者，

从所述音频数据中提取混合频率系数特征，并采用高斯混合模型来进行说话者分段标记；

所述高斯混合模型模拟每个说话者，并通过隐马尔可夫模型为每个说话者分配相应的帧。

优选地，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

采用隐含狄利克雷分布技术，从预定义的有限且固定的主题中，计算每个主题之间的关联，以及所述文本数据的主题分布。

第二方面，本发明实施例还提供一种人机交互装置，包括：

音频数据和/或视频数据采集单元，用于采集当前环境的音频数据和/或视频数据；

说话者识别单元，用于根据所述音频数据和/或所述视频数据对当前说话者进行识别，并根据当前说话者识别的数量确定回答的称谓；

关键内容识别单元，用于将所述音频数据和/或所述视频数据，转换成文本数据，并对所述文本数据进行关键内容识别；

交互单元，用于根据所述关键内容识别结果和确定回答的称谓，从知识库中提取对应的音频数据和/或视频数据进行答复。

优选地，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

第三方面，本发明实施例还提供一种终端设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的人机交互方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述的人机交互方法。

实施本发明实施例具有如下有益效果：

附图说明

图1为本发明实施例提供的人机交互方法的流程示意图；

图2为本发明实施例提供的说话者识别示意图；

图3为本发明实施例提供的视觉手语拼音教学示意图；

图4为本发明实施例提供的人机交互方法的操作示意图；

图5为本发明实施例提供的人机交互装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1。

本发明实施例提供一种人机交互方法，包括：

S100、采集当前环境的音频数据和/或视频数据。

通过适配现有技术下的麦克风、摄像头，能够满足对当前环境的音频数据和/或视频数据的采集要求。

S200、根据所述音频数据和/或所述视频数据对当前说话者进行识别，并根据当前说话者识别的数量确定回答的称谓。

其中，所述根据所述音频数据和/或所述视频数据对当前说话者进行识别，包括：

其中，所述采用说话者自动分段标记，从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话，包括：

在具体的实施例当中，加入识别用户的功能。有关识别的方法，可以用语音、视频或其他技术实现。请参阅图2，其一的实现方法是采用说话者自动分段标记(SpeakerDiarization)，从语音中标注出“谁”从“什么时候”到“什么时候”在说话。在说话者自动分段标记的技术中，谷歌公司研究用无界交错状态递归神经网络(RNN)，通过对受监督的说话者标签，再利用交错时间中不同的RNN状态来区分说话者。另外，在身份确认的系统中，早已广泛地使用识别说话者技术，通常的方法是从语音中提取混合频率系数(MFCC)特征，用高斯混合模型(GMM)来进行说话者分段标记，使用高斯混合模型来模拟每个说话者，并在隐马尔可夫模型(HMM)的帮助下为每个说话者分配相应的帧。

此外，用视频识别说话者的实现方法是在视频中对光線、顏色、雜雜等进行预处理，先减少环境对视频里对人脸识别的影响，然后在视频中通过对颜色、遮盖物、拍摄的姿态角度、表情等分析，将人脸特征提取出来，定下脸孔的框框，计算人数与记录个人的特征，若再配合说话者语音分析，将更准确地识别说话者。

现有技术下，一般的语音聊天机器人并不侧重于识别说话者，因其设计目的是为了理解对话的内容，而不是在识别说话者上，所以在应用上比较偏向于单对单的对话，此外，也会易受环境的因素影响，在有其他人说话的环境下会混淆对话内容。另外，在多人的对话中，没有识别说话者的功能，将妨碍语音聊天机器人成为一个能分辨不同学生答问的智能导师。而本实施例能够满足一对一和一对多的人机交互情景，且能够准确地、系统地完成人机交互。

S300、将所述音频数据和/或所述视频数据，转换成文本数据，并对所述文本数据进行关键内容识别。

其中，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

在具体的实施例当中，为提高离线下的语音准确率，采用关键内容识别的技术，此技术建基于隱含狄利克雷分布(LDA)，当语音转换成文字后，对话的内容就如一篇由数个主题所组成的文件，每个主题有数个重要的用词来描述，而相同的用词可同时出现在不同的主题之间。隱含狄利克雷分布技术的基本精神是，从之前定义好有限而固定的主题中，透过观察对话与用词来计算出主题之间的关联，以及各个对话的主题分布，只要语音对话例子够多，就可以快速地理解不同对话的主题，然后，聊天机器人就可以更准确地与人对话。

S400、根据所述关键内容识别结果和确定回答的称谓，从知识库中提取对应的音频数据和/或视频数据进行答复。

在具体的实施例当中，即时聊天的主题内容在是在离线状态下，聊天的主题内容在离线下，因为对同一概念下的语言变化理解有限，所以智能处理简单的问题。为增加主题内容的知识及更准确掌握语言内容，智能导师用了隱含狄利克雷分布去分析主题内容里的关键内容，同时，也具有事先定义好主题和知识，以故事板形式储存在知识库里，通过对语音和其他讯息的翻译，与对话前后内容的理解，从故事板的知识库中找出适当的语音和动作回应。当对话讯息模糊不清时，智能导师会复述问题，及确认它所听到的对话内容，以保持对话正确进行。

下面结合具体实例对本发明进一步说明。

需要说明的是，智能导师，其一教授知识的实现方法是教授语言。硬件的机器人导师成本高，教授语言时嘴巴未能逼真地模仿人发音时的口型活动，这都妨碍了这些机器人在教育上的应用。所以，另一种方法是在智能机器的屏幕上，以软件机器人导师的形式直接把视频显示出来，或者利用虚拟人物技术，用电脑绘画出栩栩如生的导师，说话时表情和嘴巴，以至肢体准确配合像真人一样教授。但是，有关技术要求与成本仍然颇高，总成本并不是一般的软件机器人导师可以承担。

智能导师会在一对一，或在一对多的环境里教学或聊天。有时候，聊天中途也会由一对一变成一对多交谈；反之，也可能从一对多变成一对一。在一对一的环境下，机器人导师可以用比较个人化的方式，与用户交谈，但是，在一对多的环境下，机器人导师的对象就从一人变成了多人，对说话者的称呼也从你变成你们，或是从他变成他们。对话人物也可从多人中只与其中一人或部分人进行，例如，机器人导师要问其中一些人答案时，也需要分辨谁回答了问题？谁回答错误，谁回答正确？通过说话者识别的功能，配合故事板的导引教授。

例如，利用屏幕和视频适合小孩学习外语拼音的教学法，再用语音与图像识别分析学生的回答。在屏幕上用视频显示发音时的口型，表情等相关变化；同时，也播放易于记忆的辅助手语，让学习能达到更佳的效果。请参阅图3，例如：学习美式英语，除以视频显示嘴巴怎样发音外，还可以显示相关的美式手语(American Sign Language)，这种视觉拼音的方法对幼儿已经是广泛使用而证明有效的英语学习法。当智能导师教授英语发音时，学生学习发音，也学习手语辅助记忆。本发明的智能导师用语音识别学生的发音是否准确？另外，也可以用学生做的视觉手语拼音，用图像手语识别方法来肯定是否已掌握了拼音手语。有研究指出与拼音相关的手语识别，通过VGG16等深度卷积神经网络模型对36个字母的手语识别可以达到95.54％的准确率。利用语音与图像分析，将有助于识别学生的发音是否准确，学生是否可跟得上教学进度？

请参阅图4，当智能导师开始教学，它从话筒聆听声音，也可以同时用镜头拍下视频，从语音或与视频中，分辨说话者是一人或多人，然后识别是谁说话。识别后，教授一些学习内容，识别回应学生的反应。如果教学完毕，结束教学。如果仍未完成，回到从话筒聆听声音与用镜头拍视频。

请参阅图5。

本发明实施例还提供一种人机交互装置，包括：

音频数据和/或视频数据采集单元10，用于采集当前环境的音频数据和/或视频数据；

说话者识别单元20，用于根据所述音频数据和/或所述视频数据对当前说话者进行识别，并根据当前说话者识别的数量确定回答的称谓；

关键内容识别单元30，用于将所述音频数据和/或所述视频数据，转换成文本数据，并对所述文本数据进行关键内容识别；

交互单元40，用于根据所述关键内容识别结果和确定回答的称谓，从知识库中提取对应的音频数据和/或视频数据进行答复。

优选地，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

本发明实施例还提供一种终端设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

本发明实施例还提供一种计算机可读存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如上述的人机交互方法。

本发明实施例还提供一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的精准搜索的有偿互动方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人机交互方法，其特征在于，包括：

采集当前环境的音频数据和/或视频数据；

2.根据权利要求1所述的人机交互方法，其特征在于，所述根据所述音频数据和/或所述视频数据对当前说话者进行识别，包括：

3.根据权利要求2所述的人机交互方法，其特征在于，所述采用说话者自动分段标记，从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话，包括：

4.根据权利要求1所述的人机交互方法，其特征在于，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

5.一种人机交互装置，其特征在于，包括：

6.根据权利要求5所述的人机交互装置，其特征在于，所述根据所述音频数据和/或所述视频数据对当前说话者进行识别，包括：

7.根据权利要求6所述的人机交互装置，其特征在于，所述采用说话者自动分段标记，从所述音频数据中标注某一说话者从某一时刻至另一时刻在说话，包括：

8.根据权利要求5所述的人机交互装置，其特征在于，所述对所述文本数据进行关键内容识别，包括：

将所述文本数据进行若干主题划分；

9.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4任一项所述的人机交互方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4任一项所述的人机交互方法。