CN110363074A

CN110363074A - 一种针对复杂抽象化事物的类人化识别交互方法

Info

Publication number: CN110363074A
Application number: CN201910474678.6A
Authority: CN
Inventors: 韦政松; 邓晓燕; 黄海真; 陈洲楠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-22
Anticipated expiration: 2039-06-03
Also published as: CN110363074B

Abstract

本发明公开了一种针对复杂抽象化事物的类人化识别交互方法，该方法包括以下步骤：1)采集人的语音和脸部信息；2)提取人脸部表情特征和语言情感倾向特征；3)情感状态分析；4)交互模式判定；5)交互效果反馈。该方法利用数字摄像头和麦克风获取人的脸部和语音信息，通过语音识别和人脸识别获得脸部表情特征和语言情感倾向，并通过类人思维直接分析情感状态和完成交互模式的判定。最后，再次通过步骤1)和2)获得交互反馈调整优化用于情感状态分析的网络，从而实现机器在和人交互时可以对人类特有的复杂抽象事物进行识别交互和自适应。

Description

一种针对复杂抽象化事物的类人化识别交互方法

技术领域

本发明涉及人工智能以及嵌入式系统技术领域，具体涉及一种针对复杂抽象化事物的类人化识别交互方法。

背景技术

智能人机交互是人工智能领域重要的研究方向之一，随着人工智能的不断发展，人们对智能产品的提出了更高的要求。

同时，随着弱人工智能技术应用的泛化和普及，用户对交互式人工智能设备的需求越来越向强人工智能化和仿人化发展，希望和机器的信息交互能像和人对话一样方便自然。而传统智能终端的弱人工智能AI只针对某些简单的场景和意图进行对话交互，依托大数据和大量人为标注和编程，并不具备对复杂场景和模态的识别理解和交互能力，只能基于设定好的规则做出识别和执行指令，也无自主学习和适应的能力，难以满足灵活性地需求，从而导致这些产品和技术在应用时遭到某些质疑和边缘化。而目前大部分对话交互研究工作主要集中在自然语言处理上，而且也只是针对单一模态的处理。目前亟待提出一种可以对与人类交互时的复杂场景和模态变化做出识别响应，并且可以灵活自调整和适应的方法。以解决目前智能设备的对话交互受场景限制的问题，并且能不断适应各类新场景，新交互需求。

发明内容

本发明的目的是为了解决现有智能终端的交互能力不足的缺陷，提供一种针对复杂抽象化事物的类人化识别交互方法。

本发明的目的可以通过采取如下技术方案达到：

一种针对复杂抽象化事物的类人化识别交互方法，包括以下步骤：

S1、利用麦克风和摄像头分别采集语音信息和人脸图像信息；

S2、将上述语音信息和人脸图像信息经过多层卷积神经网络处理，分别提取语言情感倾向特征S和人脸表情特征F；

S3、基于随机森林算法，将人脸表情特征F和语言情感倾向特征S融合分析出用户的情感状态；

S4、通过经验学习网络，结合历史经验信息和情绪特征曲线综合判定得出交互模式后完成交互；

S5、重复步骤S1-步骤S2，利用麦克风和摄像头再次分别采集语音信息和人脸图像信息，并分别提取语言情感倾向特征S和人脸表情特征F，分析并反馈交互效果，优化调整用于情感状态分析的经验学习网络；

S6、利用麦克风和摄像头分别采集语音信息和人脸图像信息，重复步骤S1-步骤S4，通过优化调整后的经验学习网络得出交互模式进行交互。

进一步地，所述的步骤S2过程如下：

S21、麦克风阵列接收到声音数据后，采用DoA(到达方向)，BF(波束形成)，AEC(声学回声消除)以及特征判定等多种语音算法处理信号得到语音信息并通过语义分析网络提取出语言情感倾向特征S；

S22、人脸图像信息采集完毕后调用OpenCV库和基于Keras的深层卷积神经网络进行人脸检测，并提取出人脸表情特征F。

进一步地，所述的步骤S3过程如下：

S31、采用随机森林算法模型作为集成学习中的强分类器，通过一定量的预训练样本集预训练让随机森林算法模型学习得到用于类人化的识别融合的模型框架；

S32、采用预训练后的随机森林算法模型处理人脸表情特征F和语言情感倾向特征S，从而分析得到当下用户的情感状态m，并定义:

△m＝ε×m，其中，ε为随机森林算法模型附带置信值。

该参数可作为拟画步骤S4中情绪特征曲线的动态参考值。

进一步地，所述的步骤S4过程如下：

S41、通过采用随机抽样方法采集人对复杂抽象化事物的识别数据，搭建出类人识别数据集并使用决策树模型训练得到经验学习网络；

所述的识别数据提取过程如下：

用随机抽样调查方法采集真人经验识别样本，采集后将其导入输入矩阵R_i,有：

其中F_i，i∈[0，n]为人脸表情特征样本数据；S_i，i∈[0，n]为语言情感倾向特征样本数据；m_i，i∈[0，n]为情感状态样本数据，此处变量下标i均指第i个样本数据，n为样本容量。

样本经过标注后再导入输出矩阵R_o，有：

其中F_i，i∈[0，n]为人脸表情特征样本数据；S_i，i∈[0，n]为语言情感倾向特征样本数据；m_i，i∈[0，n]为情感状态样本数据；bot_i，i∈[0，n]为输出模型标注数据。此处所述变量下标i均指第i个样本数据，n为样本容量。

利用矩阵乘法特性辅助样本的输入输出将有利于提高多特征的融合识别的网络搭建速率。

S42、所述的决策树模型通过将经验(类人)样本训练为决策树，其过程包括：

设置树的数量N和正则化分量x，y；

导入单人经验数据集，根据x，y权重加权训练并评判识别效果，得到子判断集；导入多份不同的经验数据训练更多的子判断集并再次评估识别效果；每个子判断集映射成一棵决策树。

多棵决策树根据随机森林搭建框架组成随机森林，采用bagging式集成学习方法训练并导出参数权重和识别偏差。再评估随机森林识别效果和置信度并相应的调整权重参数，使其决策结果趋近于样本社群集体识别率&_n，从而得到经验学习网络初步框架。

综合类人识别经验数据集和经验(类人)样本后输入经验学习网络，从而通过经验学习网络获得历史经验信息；

S43、依据情绪心理学相关理论，为了还原人类情绪心理特征变化时所具有的时间连续性和积累效应，将和第n轮对话轮数相关的用户情感状态定义为M_n，上一轮的用户情感状态定义为M_n-1，初始值定义为M₀，对话轮数定义为n，时间定义为t，采用的积分求和方式拟合出情绪特征曲线：

M_n＝M_n-1+△M

故对于M₀和m，有：

S44、所述的经验学习网络结合所述的情绪特征曲线上各点的参数权重训练镜像网络，为了模拟集体决策这一能显著提高决策正确率的社会文明成果，采取多网络投票决策的方式形成强学习器，并让该强学习器做出交互决策完成交互动作。这一决策方式可以使智能终端行为附带有人性化判断的一些特征。并且用机器模拟该方法不会存在时间开销大，存在严重的滞后和不便利性等问题。

进一步地，所述的步骤S5过程如下：

S51、利用麦克风和摄像头再次分别采集语音信息和人脸图像信息，并分别提取语言情感倾向特征S和人脸表情特征F，并定义反馈量为B，其中，反馈量B如下：

其中，b为阈值常量；

S52、如果反馈量B的值为正，记录数据并对经验学习网络进行正优化，如果反馈量B的值为负，记录数据并对经验学习网络进行负优化，如果反馈量B的值为零，则不对经验学习网络进行优化。

通过在真实场景下的人机对话交互中不断重复步骤S1到步骤S5，智能终端可不断获得真实的交互数据并记录。

通过对真实场景交互数据的自学习，该方法可以使智能终端不断训练调整自身的决策树和经验学习网络的相关权重，具体为根据反馈的真实实场景交互数据和决策方式进行学习并自动优化森林参数结构使得向该场景下的&_n转化，从而实现不同场景的自适应学习。并以此让智能设备获得动态学习能力和自适应能力。

本发明相对于现有技术具有如下的优点及效果：

1、本发明采用多模融合的方法对脸部和语音情感特征进行融合，相较与单模识别，其具有更高的准确性；其由人类经验数据集训练而成的判断集和判断网络，相较于运用复杂的情感计算算法和多维情绪空间解析模型，其识别方法更具有直观性，简洁性，高效性，以及具有编程算法所无法还原的人类做模式识别时所具有的某些非线性特征。

2、本发明还采用了反馈闭环学习、强化学习和交互式学习方法可以让智能终端在对话时提取信息反馈并做出动态调整，模拟人的交流学习过程，解决了现有技术面临的无法实时学习，识别僵硬死板的问题。从而使得该方法具有极好的动态特征和在各种环境场景下的交互适应能力。即使针对不同交互对象和环境背景，运用该方法也可以让智能终端快速适应该场景下的判别规则。

附图说明

图1是本发明中公开的针对复杂抽象化事物的类人化识别交互方法的步骤流程图；

图2是本发明实施例中技术实施路线框图；

图3是本发明实施例中随机森林的实施结构图；

图4是本发明实施例中少样本下的决策效果图；

图5是本发明实施例中多样本下的决策效果图；

图6是本发明实施例中判别度随样本量增大的变化图；

图7是本发明实施例中强化学习和自适应学习搭建框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例具体公开了一种针对复杂抽象化事物的类人化识别交互方法，如附图1所示，包括以下步骤：

S1、利用麦克风和摄像头分别采集语音信息和人脸图像信息；如附图2左半部分所示，运用到的相关技术流程包括微表情识别、语音识别、所述的人脸识别将人脸图像信号转化为人脸图像信息、语音识别模型用于将声音信号转换成文本信号提取出语音信息。S2、将上述语音信息和人脸图像信息经过多层卷积神经网络处理，如附图2右半部分所示，通过情绪分析技术、并在NLP技术的辅助处理下得到分别提取语言情感倾向特征S和人脸表情特征F；继而再通过交互控制、与AI-BOT通信、执行语音合成等完成后续部分交互。

本实施例中，所述的步骤S2过程如下：

S21、为了得到更好的识别信息，解决目前识别技术处理信息时存在的噪声严重的问题，麦克风阵列接收到声音数据后，采用DoA(到达方向)，BF(波束形成)，AEC(声学回声消除)以及特征判定等多种语音算法处理信号得到语音信息并通过语义分析网络提取出语言情感倾向特征S；

本实施例中，所述的步骤S3过程如下：

S31、采用随机森林算法模型作为集成学习中的强分类器，通过一定样本预训练得到经验识别网络框架，让随机森林算法模型学习得到目前靠编程算法所不具备的类人化的识别融合能力；

S32、采用预训练后的随机森林算法模型处理人脸表情特征F和语言情感倾向特征S，如附图3所示为软件层的随机森林算法模型的运行结构，抽样采样得到的经验训练集合source sample经过分类导入训练后成为subsample，对某情景或某事件产生各自的predictionX，最终的result由各个prediction投票而出并按照占比计算概率置信值ε。从而分析得到当下用户的情感状态m，并定义:

△m＝ε×m，其中，ε为随机森林算法模型附带置信值。

该参数可作为拟画步骤S4中情绪特征曲线的动态参考值。

本实施例中，所述的步骤S4过程如下：

S41、通过采用随机抽样方法采集人对复杂抽象化事物的识别数据，搭建出类人识别数据集并导入决策树模型训练。结果如附图4所示，分析数据得单一样本量下的识别效果具有单一性，个体性和死板性，不适用于做自然决策。为了解决这一问题，进一步增加镜像样本，如附图5所示，当样本量增大，复杂抽象事物和情景如情感情绪的识别结果在某些边界呈现类人判断的模糊化和不定化。相比与传统的通过设置规则实现模糊化的模糊算法方式，这种方式具有更优质的非线性特征。

S42、所述的决策树模型通过将经验(类人)样本训练为决策树，综合类人识别数据集和经验(类人)样本后输入经验学习网络，通过经验学习网络获得历史经验信息；

S43、依据情绪心理学相关理论，为还原人类情绪心理特征变化时所具有的时间连续性和积累效应，将和第n轮对话轮数相关的用户情感状态定义为M_n，上一轮的用户情感状态定义为M_n-1，初始值定义为M₀，对话轮数定义为n，时间定义为t，采用的积分求和方式拟合出情绪特征曲线：

M_n＝M_n-1+△M

故对于M₀和m，有：

S44、所述的经验学习网络结合所述的情绪特征曲线上各点的参数权重训练镜像网络，并采取投票决策的方式形成强学习器，并让该强学习器做出交互决策完成交互动作。这一决策方式模拟了社群综合决策过程，可以使智能终端行为附带有人性化判断的一些特征。如附图6所示，随着样本量的增大，判别效果趋近于社群智慧或集体意志。总判别率收敛于80％左右，趋近于人在对话时的情感情绪判别率，说明在实施中具有一定的类人话识别和应用效果。

本实施例中，所述的步骤S5过程如下：

S51、如附图7所示，给模型增加反馈学习闭环，利用麦克风和摄像头再次分别采集语音信息和人脸图像信息，并分别提取语言情感倾向特征S和人脸表情特征F，并定义反馈量为B，其中，反馈量B如下：

其中，b为阈值常量；

S52、为了模拟类人反馈机制，算法设置如果反馈量B的值为正，记录数据并对经验学习网络进行正优化，如果反馈量B的值为负，记录数据并对经验学习网络进行负优化，如果反馈量B的值为零，则不对经验学习网络进行优化。该闭环反馈学习方法的反馈调整机制使得智能终端具有强化学习和自适应自学习的能力。

S6、利用麦克风和摄像头分别采集语音信息和人脸图像信息，重复步骤S1-步骤S4，通过优化调整后的经验学习网络得出交互模式进行交互。通过在真实场景下的人机对话交互中不断重复步骤S1到步骤S5，智能终端可不断获得真实的交互数据并记录。

通过对真实场景交互数据的自学习，该方法可以使智能终端不断训练调整自身的决策树和经验学习网络的相关权重，获得目前识别方法中所不具备的动态学习能力和自适应能力。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种针对复杂抽象化事物的类人化识别交互方法，其特征在于，所述的类人化模式识别方法包括以下步骤：

S5、利用麦克风和摄像头再次分别采集语音信息和人脸图像信息，并分别提取语言情感倾向特征S和人脸表情特征F，分析并反馈交互效果，优化调整用于情感状态分析的经验学习网络；

2.根据权利要求1所述的一种针对复杂抽象化事物的类人化识别交互方法，其特征在于，所述的步骤S2过程如下：

S21、语音信息采集完毕后采用DoA、BF、AEC以及特征判定联合处理信号，并通过语义分析网络提取出语言情感倾向特征S；

3.根据权利要求1所述的一种针对复杂抽象化事物的类人化识别交互方法，其特征在于，所述的步骤S3过程如下：

S31、采用随机森林算法模型作为集成学习中的强分类器，通过一定样本预训练让随机森林算法模型学习得到类人化的识别融合能力；

△m＝ε×m，其中，ε为随机森林算法模型附带置信值。

4.根据权利要求3所述的一种针对复杂抽象化事物的类人化识别交互方法，其特征在于，所述的步骤S4过程如下：

S42、所述的决策树模型通过将经验样本训练为决策树，综合类人识别数据集和经验样本后输入经验学习网络，通过经验学习网络获得历史经验信息；

S43、将和第n轮对话轮数相关的用户情感状态定义为M_n，上一轮的用户情感状态定义为M_n-1，初始值定义为M₀，对话轮数定义为n，时间定义为t，采用的积分求和方式拟合出情绪特征曲线：

M_n＝M_n-1+△M

故对于M₀和m，有：

S44、所述的经验学习网络结合所述的情绪特征曲线上各点的参数权重训练镜像网络，并采取投票决策的方式形成强学习器，并让该强学习器做出交互决策完成交互动作。

5.根据权利要求4所述的一种针对复杂抽象化事物的类人化识别交互方法，其特征在于，所述的步骤S5过程如下：

其中，b为阈值常量；