CN110085229A

CN110085229A - 智能虚拟外教信息交互方法及装置

Info

Publication number: CN110085229A
Application number: CN201910352908.1A
Authority: CN
Inventors: 李红深
Original assignee: Zhuhai Jing Xiu Photoelectric Technology Co Ltd
Current assignee: Zhuhai Jing Xiu Photoelectric Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-02

Abstract

本申请实施例提供了一种智能虚拟外教信息交互方法及装置，包括：获取用户的第一语音信息和第一表情信息；对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息；确定用于回应所述第一文本信息的第二文本信息；根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪；确定用于回应所述用户的当前情绪的第二表情；通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。由于本申请可以在回应用户的语音的同时展现出适宜的表情，使得用户能够更加直观地与虚拟形象的虚拟外教互动，用户可随时与虚拟外教沟通，有利于营造良好的外语环境，消耗的人力物力成本相对现有技术较低。

Description

智能虚拟外教信息交互方法及装置

技术领域

本申请涉及语音及位置检测技术领域，具体而言，涉及一种智能虚拟外教信息交互方法及装置。

背景技术

用户在学习外语时，往往由于无法处于相应的外语环境中，导致用户的口语不够标准，无法快速进步。

现有技术中，往往通过聘请真人外教在网络授课，用户通过上网学习外教的课程，来尽可能地提供外语环境。然而，真人外教往往需要预约时间，无法随时沟通，耗费较高的人力物力成本。

发明内容

有鉴于此，本申请实施例提供了一种智能虚拟外教信息交互方法及装置，用以改善现有技术中无法随时沟通，耗费较高人力物力的问题。

第一方面，本申请实施例提供了一种智能虚拟外教信息交互方法，所述方法包括：获取用户的第一语音信息和第一表情信息；对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息；确定用于回应所述第一文本信息的第二文本信息；根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪；确定用于回应所述用户的当前情绪的第二表情；通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。

由于本申请可以在回应用户的语音的同时展现出适宜的表情，使得用户能够更加直观地与虚拟形象的虚拟外教互动，用户可随时与虚拟外教沟通，有利于营造良好的外语环境，消耗的人力物力成本相对现有技术较低。

在一个可能的设计中，所述根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪，包括：将所述第一文本信息进行划分，获得至少一个关键词；从所述至少一个关键词中筛选出第一候选情绪信息；获得所述第一表情信息对应的情绪标签；获得与所述情绪标签对应的第二候选情绪信息；根据情绪信息与情绪分值的映射关系，得到第一候选情绪信息对应的第一情绪分值和第二候选情绪信息对应的第二情绪分值；比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，将较大的乘积所对应的候选情绪信息所反映的情绪作为所述用户的当前情绪。

根据第一文本信息和第一表情信息共同确定用户的当前情绪，可以使得确定出的用户的当前情绪更加准确。

在一个可能的设计中，所述获得所述第一表情信息对应的情绪标签，包括：将所述第一表情信息与表情数据库中多个表情分别比对；从所述多个表情中确定与所述第一表情信息匹配的表情，获得与所述第一表情信息匹配的表情对应的情绪标签。

可以通过将第一表情信息反映的表情与多个表情中的每个分别比对，然后从多个表情中选出与第一表情信息反映的表情相似度最高的表情，然后得到该相似度最高的表情对应的情绪标签。表情数据库中可以存储大量的表情，且每个表情都可对应有情绪标签。通过表情与表情之间的比对，能够更准确获得该表情的情绪标签。

在一个可能的设计中，所述比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，包括：比较ax与by的大小，其中，a为语音加权系数，x为第一情绪分值，b为表情加权系数，y为第二情绪分值；所述将较大的乘积所对应的候选情绪信息作为所述用户的当前情绪信息，包括：当ax大于by时，将所述第一候选情绪信息作为所述用户的当前情绪信息；当ax小于by时，将所述第二候选情绪信息作为所述用户的当前情绪信息。

可分别得到第一候选情绪信息、第二候选情绪信息的第一情绪分值和第二情绪分值，然后将各分值与相应的加权系数相乘，比较乘积的大小，从而将较大的乘积对应的候选情绪信息所反映的情绪作为用户的当前情绪。情绪分值可以是反映相应情绪出现的具体概率值，语音加权系数和表情加权系数可以根据预先进行的大量实验获得，计算情绪分值与加权系数的乘积，可以更完善地反映出用户当前情绪为候选情绪的可能程度。

在一个可能的设计中，所述方法还包括：获得所述第一文本信息的标准语音信息；根据所述标准语音信息判断所述第一语音信息的发音是否有误；若所述第一语音信息的发音有误，通过所述第一虚拟形象以与所述标准语音信息对应的表情发出所述标准语音信息对应的语音。

若第一语音信息的发音不标准，可以令第一虚拟形象以标准语音对应的表情发出标准语音，从而可以快捷直观的纠正用户的错误发音。

第二方面，本申请实施例提供了一种智能虚拟外教信息交互方法，所述方法包括：获取用户的第一语音信息和第一表情信息；向服务器发送所述第一语音信息和第一表情信息；接收所述服务器发送的第二文本信息和第二表情，在显示界面通过所述第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音，其中，所述第二表情为用于回应所述用户的当前情绪的表情，所述第二文本信息为用于回应所述第一语音信息表达的第一文本信息的文本信息。

在一个可能的设计中，所述方法还包括：在显示界面通过第二虚拟形象以所述第一表情信息所对应的表情发出所述第一语音信息。

在通过第一虚拟形象充当虚拟外教与用户进行对话的同时，在显示界面还可以通过第二虚拟形象呈现用户实时的表情和用户实时的语音，用户可以同时看到自己发音的表情和虚拟外教发音的表情，从而利用用户直观地得知自己发音的表情是否有误，利于用户的进一步提高。

在一个可能的设计中，所述方法还包括：接收所述服务器发送的标准语音信息以及与所述标准语音信息对应的表情信息；在显示界面通过所述第一虚拟形象以所述标准语音信息对应的表情信息所对应的表情发出所述标准语音信息。

终端设备在接收到服务器发送的标准语音信息和发出标准语音的表情信息后，在显示界面展示出来。可以在用户发音错误后，随即展现出错误发音本应发的标准语音，及时纠正用户，也可以在用户下一次启动虚拟外教系统时，再纠正本次与第一虚拟形象(即虚拟外教)对话中用户出现的发音错误。

在一个可能的设计中，所述方法还包括：判断从接收到最新的第一语音信息后是否超过预设时长；若超过预设时长，在显示界面显示提示信息以提醒用户发言。

若长时间未接收到用户发出的第一语音信息，可在显示界面弹出提示信息以提醒用户，鼓励用户改变不发言或少发言的习惯，从而利于用户外语能力的提高。

第三方面，本申请实施例提供了一种智能虚拟外教信息交互装置，所述装置包括：第一信息获取模块，用于获取用户的第一语音信息和第一表情信息；文本获取模块，用于对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息；文本确定模块，用于确定用于回应所述第一文本信息的第二文本信息；当前情绪获得模块，用于根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪；表情确定模块，用于确定用于回应所述用户的当前情绪的第二表情；信息展示模块，用于通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。

第四方面，本申请实施例提供了一种智能虚拟外教信息交互装置，所述装置包括：第二信息获取模块，用于获取用户的第一语音信息和第一表情信息；信息发送模块，用于向服务器发送所述第一语音信息和第一表情信息；信息接收模块，用于接收所述服务器发送的第二文本信息和第二表情，在显示界面通过所述第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音，其中，所述第二表情为用于回应所述用户的当前情绪的表情，所述第二文本信息为用于回应所述第一语音信息表达的第一文本信息的文本信息。

第五方面，本申请提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第六方面，本申请提供一种计算机介质，该计算机介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第七方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的智能虚拟外教信息交互方法的流程图；

图2是本申请实施例提供的智能虚拟外教信息交互方法的时序图；

图3是本申请实施例提供的智能虚拟外教信息交互方法的部分步骤的时序图；

图4是本申请实施例提供的智能虚拟外教信息交互装置的结构框图；

图5是本申请实施例一种具体实施方式提供的智能虚拟外教信息交互装置的结构框图；

图6为本申请实施例中的装置的结构框图。

具体实施方式

实施例

请参见图1，图1示出了本申请实施例提供的智能虚拟外教信息交互方法，该智能虚拟外教信息交互方法可以单独在终端设备运行，也可以单独在服务器执行，具体包括如下步骤：

步骤S110，获取用户的第一语音信息和第一表情信息。

第一语音信息可以为用户面对虚拟外教系统所发起的外文对话的语音，第一表情信息可以为用户发起外文对话时的面部表情，也可以是反映用户面部表情的多个特征向量。可以由终端设备通过麦克风接收用户的第一语音信息，由终端设备的摄像头记录用户的第一表情信息。也可以在终端设备接收到用户的第一语音信息和第一表情信息之后发送给服务器。

步骤S120，对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息。

第一文本信息为第一语音信息的文字版本。可以利用隐马尔可夫模型来进行语音识别，也可以利用人工神经网络来进行语音识别，从而获得第一语音信息的第一文本信息。

步骤S130，确定用于回应所述第一文本信息的第二文本信息。

可以从语音数据库中查找能回应第一文本信息的第二文本信息，例如，对第一文本信息进行拆分成多个关键词，查找能回应关键词的词语，并按照语法将词语组合成句子，从而生成第二文本信息。或者，可以将第一文本信息作为输入量，输入值预先训练好的第一模型中，由模型输出与第一文本信息对应的第二文本信息。

第一模型可以通过多组样本进行训练，例如，在多组样本的每组样本中，可以包括文本1以及与该文本1对应的文本2，文本3以及与该文本3对应的文本4；将文本1输入第一模型，判断由第一模型输出的文本与文本2的误差是否在合理范围内，将文本3输入第一模型，判断由第一模型输出的文本与文本4的误差是否在合理范围内；通过调整第一模型的参数，使得输出量与输入量对应的文本的误差调整在合理的范围内。

步骤S140，根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪。

用户的当前情绪指的是用户以第一表情信息对应的表情发出第一文本信息对应的语音时用户所处的情绪状态。根据第一文本信息以及第一表情信息获得用户的当前情绪的方法将在下文中详细描述。

步骤S150，确定用于回应所述用户的当前情绪的第二表情。

可以从表情数据库中查找能回应用户的当前情绪的第二表情，也可以将用户的当前情绪作为输入量，属于预先训练好的第二模型，由模型输出第二表情，从而回应用户的当前情绪。

第二模型可以通过多组样本进行训练，例如，在多组样本的每组样本中，可以包括情绪1以及与该情绪1对应的表情2，情绪3以及与该情绪3对应的表情4；将情绪1输入第二模型，判断由第二模型输出的表情与表情2的误差是否在合理范围内，将情绪3输入第二模型，判断由第二模型输出的表情与表情4的误差是否在合理范围内；通过调整第二模型的参数，使得输出量与输入量对应的文本的误差调整在合理的范围内。可以理解，第二模型与第一模型可以是同一个模型，也可以不是同一个模型。

步骤S160，通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。

第一虚拟形象为虚拟外教的形象，该形象的五官可以从五官图片数据库中随机选择组合生成，可以是真人形象，也可以是卡通形象，第一虚拟形象的具体形象不应该理解为是对本申请的限制。

终端设备可以在终端设备的显示屏以第一虚拟形象呈现出第二表情，由终端设备的麦克风发出第二文本信息对应的语音，同时，第一虚拟形象的嘴部的口型表现为与发出的语音相同的口型。

在进行第一虚拟形象的显示时，可维持屏幕上第一虚拟形象展示的虚拟外教的体态不动，替换其面部表情和口型，从而加快响应速度。

本申请可以分别对用户的第一语音信息和第一表情信息进行分析，获得第一语音信息表达的文本信息，然后得到能回应该文本信息的第二文本信息；同时根据第一文本信息和第一表情信息获得用户的当前情绪，再确定出能回应用户的当前情绪的第二表情；然后再通过预先设置的虚拟形象以第二表情发出第二文本信息对应的语音。由于本申请可以在回应用户的语音的同时展现出适宜的表情，使得用户能够更加直观地与虚拟形象的虚拟外教互动，用户可随时与虚拟外教沟通，有利于营造良好的外语环境，消耗的人力物力成本相对现有技术较低。

其中，根据第一文本信息以及所述第一表情信息，获得用户的当前情绪，包括如下步骤：

步骤S141，将所述第一文本信息进行划分，获得至少一个关键词。

可以对第一文本信息进行分词处理，从而得到至少一个关键词。

步骤S142，从所述至少一个关键词中筛选出第一候选情绪信息。

从至少一个关键词中筛选可能表征用户情绪的第一候选情绪信息，例如，对于文本信息“I'm sorry to hear that...”可以提取关键词sorry、hear、that，其中sorry为可能表征用户情绪的第一候选情绪信息，sorry可对应于遗憾、沮丧的情绪。再例如，对于文本信息“I'm glad to know that.”可以提取关键词glad、know、that，其中glad为可能表征用户情绪的第一候选情绪信息，glad可对应于高兴、愉悦的情绪。

步骤S143，获得所述第一表情信息对应的情绪标签。

步骤S143具体包括：将所述第一表情信息与表情数据库中多个表情分别比对；从所述多个表情中确定与所述第一表情信息匹配的表情，获得与所述第一表情信息匹配的表情对应的情绪标签。

表情数据库中可以有表情与情绪标签的映射关系，在确定出与第一表情信息匹配的表情之后，便可以根据表情与情绪标签的映射关系来获得情绪标签。例如，可提取第一表情信息中的关键特征向量，然后以及关键特征向量与表情数据库中的多个表情一一比对，在获得到关键特征向量匹配的表情之后，再获得相应的情绪标签。

步骤S144，获得与所述情绪标签对应的第二候选情绪信息。

步骤S145，根据情绪信息与情绪分值的映射关系，得到第一候选情绪信息对应的第一情绪分值和第二候选情绪信息对应的第二情绪分值。

情绪分值可以是反映相应情绪出现的具体概率值，例如高兴的情绪分值可以是反映用户的当前情绪是高兴情绪的概率，例如平静的情绪分值可以是反映用户的当前情绪是平静情绪的概率。每个情绪的情绪分值可以根据以往大量的历史数据汇总获得。

步骤S146，比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，将较大的乘积所对应的候选情绪信息所反映的情绪作为所述用户的当前情绪。

具体可以比较ax与by的大小，其中，a为语音加权系数，x为第一情绪分值，b为表情加权系数，y为第二情绪分值。语音加权系数和表情加权系数均可以根据预先进行的大量实验获得。

当ax大于by时，将所述第一候选情绪信息作为所述用户的当前情绪信息；当ax小于by时，将所述第二候选情绪信息作为所述用户的当前情绪信息。计算情绪分值与加权系数的乘积，可以更完善地反映出用户当前情绪为候选情绪的可能程度。

在获得用户当前情绪时，可以对第一文本信息进行分词处理，从提取到的关键词中筛选出第一候选情绪信息；同时可以对第一表情信息进行识别，得到第一表情反映的情绪标签，然后得到情绪标签所表示的第二候选情绪信息。情绪信息与情绪分支存在映射关系，可分别得到第一候选情绪信息、第二候选情绪信息的第一情绪分值和第二情绪分值，然后将各分值与相应的加权系数相乘，比较乘积的大小，从而将较大的乘积对应的候选情绪信息所反映的情绪作为用户的当前情绪。根据第一文本信息和第一表情信息共同确定用户的当前情绪，可以使得确定出的用户的当前情绪更加准确。

可选地，该方法还包括如下步骤：获得所述第一文本信息的标准语音信息；根据所述标准语音信息判断所述第一语音信息的发音是否有误；若所述第一语音信息的发音有误，通过所述第一虚拟形象以与所述标准语音信息对应的表情发出所述标准语音信息对应的语音。

在获得用户发出的第一语音信息之后，可以先获得第一语音信息所对应的文本信息，再获得文本信息的标准语音，然后判断第一语音信息的发音是否标准。若不标准，可以令第一虚拟形象以标准语音对应的表情发出标准语音，从而可以快捷直观的纠正用户的错误发音。

在步骤S110之前，在终端设备还可以执行如下步骤，从而判断用户是否可以进入该虚拟外教系统。

终端设备的距离传感器检测人体移动到设定的唤醒检测范围时，终端设备可以启动摄像头。

可选地，在终端设备的距离传感器检测人体到终端设备的距离满足要求后，终端设备的热释红外成像器可以判断人体到摄像头的距离是否满足要求，以及被采集的人体部分是否是人脸的形状，若人体到摄像头的距离满足要求，且被采集的人体部分是人脸的形状，则判定终端设备可以启动摄像头。

检测被采集的人体部分是否是人脸的形状，可以通过判断人体的形状是否是椭圆形来进行判断。可以先获得人体的热释红外信号，然后对热释红外信号进行放大和滤波处理，然后再对放大滤波处理后的热释红外信号进行识别，判断被采集的人体是否是人脸的形状。

摄像头开启后，对终端设备前的用户进行人脸识别，在用户进行人脸识别认证成功之后，可进入上述的虚拟外教系统。

当虚拟外教与一位学生启动对话模式后，系统将首先搜索该用户在本虚拟外教平台的学习记录，若发现该用户是第一次进入本平台学习，展示在显示屏的虚拟外教可笑脸欢迎新同学，并调用预存音像库中的欢迎页面显示，在该页面中将有初级、中级和高级口语页面课程供新同学选择。

用户可通过发出语音的方式来选择相应的口语课程，当虚拟外教平台接收到用户选择的等级课程名称后，平台将打开相关对话页面与该用户开始对话。自始至终，该用户的头像可以在显示屏的显示界面中持续显现，对应地，表征虚拟外教的第一虚拟形象也可以同时同屏播出。让用户产生与真人外教面对面对话一样的效果。在用户与虚拟外教对话结束后，虚拟外教系统可为该用户的对话做出评分，并将全程录制其学习过程，将学习过程的评分结果存储在用户大数据库。

系统每间隔预设时间对上述用户的多次学习成绩进行大数据分析，确定该用户的进步或不足，并将该用户的历史记录与其他用户的历史记录做对比，分析出用户的缺陷所在，使得下一批的外教音像数据库增加针对性的教程，完善人机对话功能。

当用户与虚拟外教系统平台进行快速交流时，虚拟外教平台为了更加快捷地回复用户，可以将文字、语音以及与语音内容较为贴切的单幅图片共同展示给用户，单幅图片与第一虚拟形象相比，数据量更小，可以使交流过程延时更小。

可选地，若人脸识别不成功，则可以在终端设备弹出识别失败提示信息，并启动新用户注册的相关程序。

在进行人脸识别时，可以先对人脸图像进行二值化处理，获得黑白人脸图像，然后利用前后凹凸度来识别表情；也可以不对人脸图像进行二值化处理，利用彩色人脸进行人脸识别，可以利用三原色色彩对比与前后凹凸度组合起来进行人脸识别。

可选地，也可以从人脸图像中提取人脸特征向量，然后将提取的人脸特征向量与数据库中预先存储的人脸特征向量比较，若匹配，则表明人脸识别成功。

在用户使用虚拟外教系统的整个过程中，用户可以通过语音控制来维持虚拟外教系统的开启，例如，若用户发出“一直开启”的语音指令，对应系统处于常开状态；若用户发出“X小时后关闭”或“定时X小时”的语音指令，则对应系统当前处于开启状态，在X小时后关闭；若用户发出“关闭系统”的语音指令，则对应系统即可处于关闭状态。

在用户使用虚拟外教系统的过程中，可实时获取用户的表情，然后判断用户的表情是否反映出愉悦、高兴的情绪，若是，则表明该虚拟外教系统的相关课程是吸引人的。

虚拟外教系统可以通过大量的用户口语练习记录的大数据进行深度学习，用大数据分析结果持续提高智能水平，不断优化口语教学方法，并增加优质对话式课件。

在一种具体实施方式中，本申请实施例提供的智能虚拟外教信息交互方法可以由服务器与终端设备共同执行，请参见图2，具体包括如下步骤：

步骤S202，终端设备获取用户的第一语音信息和第一表情信息。

可以由终端设备通过麦克风接收用户的第一语音信息，由终端设备的摄像头记录用户的第一表情信息。

步骤S204，终端设备向服务器发送第一语音信息和第一表情信息。

步骤S206，服务器对接收到的第一语音信息进行语音识别，获得第一文本信息，确定用于回应第一文本信息的第二文本信息。

第一文本信息为第一语音信息的文字版本。服务器可以利用隐马尔可夫模型来进行语音识别，也可以利用人工神经网络来进行语音识别，从而获得第一语音信息的第一文本信息。

服务器可以从语音数据库中查找能回应第一文本信息的第二文本信息，例如，对第一文本信息进行拆分成多个关键词，查找能回应关键词的词语，并按照语法将词语组合成句子，从而生成第二文本信息。或者，服务器可以将第一文本信息作为输入量，输入值预先训练好的第一模型中，由模型输出与第一文本信息对应的第二文本信息。

步骤S208，服务器根据第一文本信息、第一表情信息获得当前情绪，确定用于回应当前情绪的第二表情。

用户的当前情绪指的是用户以第一表情信息对应的表情发出第一文本信息对应的语音时用户所处的情绪状态。可以利用上文中的步骤S141至步骤S146来获得当前情绪，在此便不做赘述。

服务器可以从表情数据库中查找能回应用户的当前情绪的第二表情，也可以将用户的当前情绪作为输入量，属于预先训练好的第二模型，由模型输出第二表情，从而回应用户的当前情绪。

步骤S210，服务器向终端设备发送第二文本信息和第二表情。

服务器在获得到第二文本信息和第二表情后，可以将第二文本信息和第二表情发送给终端设备，以便于终端设备展示。

步骤S212，终端设备通过第一虚拟形象以第二表情发出第二文本信息对应的语音。

可选地，请参见图3，由服务器与终端设备共同执行的智能虚拟外教信息交互方法还可以包括如下步骤：

步骤S214，服务器获得第一文本信息的标准语音信息，根据标准语音信息判断第一语音信息的发音是否有误，若有误，执行步骤S216。

在获得用户发出的第一语音信息之后，可以先获得第一语音信息所对应的文本信息，再获得文本信息的标准语音，然后判断第一语音信息的发音是否标准。若用户发出的第一语音信息的发音有误，则表明用户发出的语音需要被更正，则执行步骤S216。

步骤S216，服务器向终端设备发送标准语音信息、与标准语音信息对应的表情信息。

与标准语音信息对应的表情信息具体可以为发出标准语音所对应的口型动作，服务器将标准语音信息以及相应的表情信息发送给终端设备。

步骤S218，终端设备通过第一虚拟形象以标准语音信息对应的表情发出标准语音信息。

终端设备通过第一虚拟形象呈现标准语音所对应的口型动作，同时通过麦克风播放标准语音；使用户在听到标准语音的同时可以同步看到标准语音对应的口型动作，以便于用户学习标准语音的口型，从而能够更快地发出标准语音。

步骤S220，终端设备通过第二虚拟形象以第一表情信息对应的表情发出第一语音信息。

终端设备在以第一虚拟形象展示标准语音的口型和标准语音的同时，还可以通过第二虚拟形象展示用户做出的第一表情信息对应的表情，以及用户发出的语音。第一虚拟形象和第二虚拟形象可以并列呈现在显示屏上，由用户对比观看，从而更容易得知自己口型的错误所在。

请参见图4，图4示出了本申请实施例提供的智能虚拟外教信息交互装置，应理解，该装置400与上述图1方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置400具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置400包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置400的操作系统(operating system，OS)中的软件功能模块。具体地，该装置400包括：

第一信息获取模块410，用于获取用户的第一语音信息和第一表情信息。

文本获取模块420，用于对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息。

文本确定模块430，用于确定用于回应所述第一文本信息的第二文本信息。

当前情绪获得模块440，用于根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪。

表情确定模块450，用于确定用于回应所述用户的当前情绪的第二表情。

信息展示模块460，用于通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。

当前情绪获得模块440包括：关键词获得子模块，用于将所述第一文本信息进行划分，获得至少一个关键词；第一候选子模块，用于从所述至少一个关键词中筛选出第一候选情绪信息；标签获得子模块，用于获得所述第一表情信息对应的情绪标签；第二候选子模块，用于获得与所述情绪标签对应的第二候选情绪信息；分值映射子模块，用于根据情绪信息与情绪分值的映射关系，得到第一候选情绪信息对应的第一情绪分值和第二候选情绪信息对应的第二情绪分值；乘积比较子模块，用于比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，将较大的乘积所对应的候选情绪信息所反映的情绪作为所述用户的当前情绪。

其中，标签获得子模块包括：表情比对次子模块，用于将所述第一表情信息与表情数据库中多个表情分别比对；表情匹配次子模块，用于从所述多个表情中确定与所述第一表情信息匹配的表情，获得与所述第一表情信息匹配的表情对应的情绪标签。

乘积比较子模块，具体用于比较ax与by的大小，其中，a为语音加权系数，x为第一情绪分值，b为表情加权系数，y为第二情绪分值；当ax大于by时，将所述第一候选情绪信息作为所述用户的当前情绪信息；当ax小于by时，将所述第二候选情绪信息作为所述用户的当前情绪信息。

可选地，装置400还包括：标准语音获得模块，用于获得所述第一文本信息的标准语音信息；发音判断模块，用于根据所述标准语音信息判断所述第一语音信息的发音是否有误；标准语音发出模块，用于通过所述第一虚拟形象以与所述标准语音信息对应的表情发出所述标准语音信息对应的语音。

请参见图5，图5示出了本申请实施例提供的智能虚拟外教信息交互装置，应理解，该装置500与上述图2和图3方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置500具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置500包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置400的操作系统(operating system，OS)中的软件功能模块。具体地，该装置500包括：

第二信息获取模块510，用于获取用户的第一语音信息和第一表情信息。

信息发送模块520，用于向服务器发送所述第一语音信息和第一表情信息。

信息接收模块530，用于接收所述服务器发送的第二文本信息和第二表情，在显示界面通过所述第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音，其中，所述第二表情为用于回应所述用户的当前情绪的表情，所述第二文本信息为用于回应所述第一语音信息表达的第一文本信息的文本信息。

装置500还包括：

第二虚拟形象展示模块，用于在显示界面通过第二虚拟形象以所述第一表情信息所对应的表情发出所述第一语音信息。

标准语音接收模块，用于接收所述服务器发送的标准语音信息以及与所述标准语音信息对应的表情信息。

第一虚拟形象展示模块，用于在显示界面通过所述第一虚拟形象以所述标准语音信息对应的表情信息所对应的表情发出所述标准语音信息。

时长判断模块，用于判断从接收到最新的第一语音信息后是否超过预设时长。

发言提醒模块，用于若超过预设时长，在显示界面显示提示信息以提醒用户发言。

本申请还提供一种装置，图6为本申请实施例中的装置600的结构框图，如图6所示。装置600可以包括处理器610、通信接口620、存储器630和至少一个通信总线640。其中，通信总线640用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口620用于与其他节点设备进行信令或数据的通信。处理器610可以是一种集成电路芯片，具有信号的处理能力。上述的处理器610可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器610也可以是任何常规的处理器等。

存储器630可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器630中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器610执行时，装置600可以执行上述图1至图3方法实施例涉及的各个步骤。

装置600还可以包括存储控制器、输入输出单元、音频单元、显示单元。

所述存储器630、存储控制器、处理器610、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线640实现电性连接。所述处理器610用于执行存储器630中存储的可执行模块。

输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

音频单元向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。显示单元可以显示处理器610执行图1至图3示出的步骤获得的第一虚拟形象和第二虚拟形象。

输入输出单元用于提供给用户输入数据实现用户与处理终端的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

可以理解，图6所示的结构仅为示意，所述装置600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

例如，图6所述的装置600还可以包括身份认证模块、图像采集模块等，本申请实施例并不限于此。

其中，身份认证模块可以包括指纹识别模块，也可以包括面部识别模块，指纹识别模块包括前置指纹识别模块和后置指纹识别模块，前置指纹识别模块可以是屏下指纹识别器或者屏幕边缘区域的指纹识别器；后置指纹识别模块可以是终端设备的远离屏幕的一侧的指纹识别器。

面部识别模块可以是人脸识别模块，也可以是虹膜识别模块。

图像采集模块可以采集黑白图像，也可以采集彩色图像，还可以采集红外图像。

本申请还提供一种计算机介质，该计算机介质上存储有计算机程序，该计算机程序被处理器运行时执行方法实施例所述的方法。

本申请还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

本发明还提供一种计算机外联设备，包括红外体感摄录仪、彩色摄像头和指向式语音录音话筒，所述红外体感摄像仪可以感应靠近彩色摄像头正面的人体，当该人的上半身在摄像头的正面视窗时，红外体感摄像仪会发出一个触发指令给系统平台，系统平台在收到该指令后打开并列的彩色摄像头开始摄像，同时计算机可启动整个平台工作，该平台在确认用户正确登录后可开启指向式语音录音话筒，保证系统能听清楚用户的声音；用户的语音和表情等将会被系统持续录制。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种智能虚拟外教信息交互方法，其特征在于，所述方法包括：

获取用户的第一语音信息和第一表情信息；

对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息；

确定用于回应所述第一文本信息的第二文本信息；

根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪；

确定用于回应所述用户的当前情绪的第二表情；

通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪，包括：

将所述第一文本信息进行划分，获得至少一个关键词；

从所述至少一个关键词中筛选出第一候选情绪信息；

获得所述第一表情信息对应的情绪标签；

获得与所述情绪标签对应的第二候选情绪信息；

根据情绪信息与情绪分值的映射关系，得到第一候选情绪信息对应的第一情绪分值和第二候选情绪信息对应的第二情绪分值；

比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，将较大的乘积所对应的候选情绪信息所反映的情绪作为所述用户的当前情绪。

3.根据权利要求2所述的方法，其特征在于，所述获得所述第一表情信息对应的情绪标签，包括：

将所述第一表情信息与表情数据库中多个表情分别比对；

从所述多个表情中确定与所述第一表情信息匹配的表情，获得与所述第一表情信息匹配的表情对应的情绪标签。

4.根据权利要求2所述的方法，其特征在于，所述比较所述第一情绪分值以及语音加权系数的乘积与所述第二情绪分值以及表情加权系数的乘积的大小，包括：

比较ax与by的大小，其中，a为语音加权系数，x为第一情绪分值，b为表情加权系数，y为第二情绪分值；

所述将较大的乘积所对应的候选情绪信息作为所述用户的当前情绪信息，包括：

当ax大于by时，将所述第一候选情绪信息作为所述用户的当前情绪信息；

当ax小于by时，将所述第二候选情绪信息作为所述用户的当前情绪信息。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得所述第一文本信息的标准语音信息；

根据所述标准语音信息判断所述第一语音信息的发音是否有误；

若所述第一语音信息的发音有误，通过所述第一虚拟形象以与所述标准语音信息对应的表情发出所述标准语音信息对应的语音。

6.一种智能虚拟外教信息交互方法，其特征在于，所述方法包括：

获取用户的第一语音信息和第一表情信息；

向服务器发送所述第一语音信息和第一表情信息；

接收所述服务器发送的第二文本信息和第二表情，在显示界面通过第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音，其中，所述第二表情为用于回应所述用户的当前情绪的表情，所述第二文本信息为用于回应所述第一语音信息表达的第一文本信息的文本信息。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在显示界面通过第二虚拟形象以所述第一表情信息所对应的表情发出所述第一语音信息。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

接收所述服务器发送的标准语音信息以及与所述标准语音信息对应的表情信息；

在显示界面通过所述第一虚拟形象以所述标准语音信息对应的表情信息所对应的表情发出所述标准语音信息。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

判断从接收到最新的第一语音信息后是否超过预设时长；

若超过预设时长，在显示界面显示提示信息以提醒用户发言。

10.一种智能虚拟外教信息交互装置，其特征在于，所述装置包括：

第一信息获取模块，用于获取用户的第一语音信息和第一表情信息；

文本获取模块，用于对所述第一语音信息进行语音识别，获得所述第一语音信息表达的第一文本信息；

文本确定模块，用于确定用于回应所述第一文本信息的第二文本信息；

当前情绪获得模块，用于根据所述第一文本信息以及所述第一表情信息，获得用户的当前情绪；

表情确定模块，用于确定用于回应所述用户的当前情绪的第二表情；

信息展示模块，用于通过预设的第一虚拟形象以所述第二表情发出所述第二文本信息对应的语音。