CN111833907B

CN111833907B - 一种人机交互方法与终端、计算机可读存储介质

Info

Publication number: CN111833907B
Application number: CN202010017735.0A
Authority: CN
Inventors: 孙建伟; 赵帅江
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2023-07-18
Anticipated expiration: 2040-01-08
Also published as: CN111833907A

Abstract

本发明提供一种人机交互方法与终端、计算机可读存储介质。该方法包括：采集当前的语音数据，然后，识别所述语音数据的第一情感；所述第一情感由文本情感识别结果或语音情感识别结果中的一种或多种获得，从而，确定所述第一情感状态对应的第二情感，进而，输出针对所述语音数据的响应语音，所述响应语音具备所述第二情感。本发明的技术方案，能够解决现有的语音交互场景中响应语音与用户的情感匹配度较低的问题，增强了语音交互过程的真实感与趣味性。

Description

一种人机交互方法与终端、计算机可读存储介质

技术领域

本发明涉及计算机技术，尤其涉及一种人机交互方法与终端、计算机可读存储介质。

背景技术

随着计算机技术的发展，终端与用户之间可以通过语音来进行交互。在语音交互场景中，终端可以采集来自于用户的语音数据，然后，利用语音数据对此进行响应，实现人机之间的语音交互

现有的语音交互场景中，一般仅针对语音数据中的语义进行识别，以确定出响应语音，响应语音的声调等都是固定的。换言之，终端回采用默认的声调和语气来对用户进行响应。这种实现方式使得响应语音与用户的情绪匹配度较低。

发明内容

本发明提供一种人机交互方法与终端、计算机可读存储介质，用以解决现有的语音交互场景中响应语音与用户的情绪匹配度较低的问题。

第一方面，本发明提供一种人机交互方法，包括：

采集当前的语音数据；

识别所述语音数据的第一情感；所述第一情感由文本情感识别结果或语音情感识别结果中的一种或多种获得；

确定所述第一情感状态对应的第二情感；

输出针对所述语音数据的响应语音，所述响应语音具备所述第二情感。

第二方面，本发明提供一种终端，包括：

采集模块，用于采集当前的语音数据；

识别模块，用于识别所述语音数据的第一情感；所述第一情感由文本情感识别结果或语音情感识别结果中的一种或多种获得；

确定模块，用于确定所述第一情感状态对应的第二情感；

输出模块，用于输出针对所述语音数据的响应语音，所述响应语音具备所述第二情感。

第三方面，本发明提供一种终端，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

本发明提供的一种人机交互方法与终端、计算机可读存储介质，在语音交互场景中，当采集到用户的与语音数据之后，可以识别用户的情感(第一情感)，并据此确定响应该语音时的情感(第二情感)，并输出具备第二情感的响应语音。如此，可以实时的针对用户的情感，选择不同的应答情感，能够有效提升响应语音与用户情绪的匹配程度，满足用户在不同情感状态下的情感需求，真实感和代入感更强，提高了语音交互体验，这也解决了现有的语音交互场景中响应语音与用户的情绪匹配度较低的问题，增强了语音交互过程的真实感与趣味性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例所提供的一种人机交互方法的流程示意图；

图2为本发明实施例所提供的另一种人机交互方法的流程示意图；

图3为本发明实施例所提供的另一种人机交互方法的流程示意图；

图4为本发明实施例所提供的一种情感分类器的训练方法的流程示意图；

图5为本发明实施例所提供的一种人机交互示意图；

图6为本发明实施例所提供的一种终端的功能方块图；

图7为本发明实施例所提供的一种终端的实体结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明实施例所提供的人机交互方法，可以应用于任意终端设备中。其中，本发明实施例所涉及到的终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，简称SIP)话机、无线本地环路(Wireless LocalLoop，简称WLL)站、个人数字助理(Personal Digital Assistant，简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(UserAgent)、用户设备(User Device or User Equipment)，在此不作限定。可选的，上述终端设备还可以是智能手表、平板电脑等设备。

本发明具体的应用场景为语音交互场景，更具体的，可以为针对多语种用户的语音交互场景。示例性的一种可能的语音交互场景中，用户可以通过发出语音指令，例如“夸夸我吧”，来指示终端输出用于夸赞用户的响应话术。在该场景中，终端可以采集语音数据，并对语音数据进行语义识别，并在识别出用户的语义后，输出响应语音。

如前，现有的语音交互场景中，终端一般会按照默认的语调、语气来输出应答数据，这种人机交互方式的响应情感单一，不能满足个性化场景中用户对语音情感的需求。

例如，在前述夸夸场景中，用户说“夸夸我吧”，则终端会按照默认的语调、语气输出夸奖用户的内容，这难以满足用户希望获得具备真实情感的夸奖这一情感需求。

本发明提供的技术方案，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例提供了一种人机交互方法。请参考图1，该方法包括如下步骤：

S102，采集当前的语音数据。

本方案应用于语音交互场景，在该场景中，终端可以实时采集用户发出的语音数据，并进行后续处理。

该步骤在实现时，可以在用户指示启动语音交互功能后，由终端自动监听并采集用户发出的语音数据。或者，还可以为用户按压显示界面上的语义输入按键，来触发并采集语音数据的。

S104，识别语音数据的第一情感；第一情感由文本情感识别结果或语音情感识别结果中的一种或多种获得。

本发明实施例中，可以对语音数据进行文本情感识别、语音情感识别中的一种或多种，从而，基于文本情感识别得到文本情感识别结果，基于语音情感识别得到语音情感识别结果，进而，采用二者中的一个或多个来确定语音数据的情感。

具体识别方式后续详述。

S106，确定第一情感状态对应的第二情感。

第一情感为采集到的用户发出的语音数据的请感，而第二情感则用于对语音数据进行响应时使用，也就是，响应语音的情感。

本发明实施例所涉及到的情感(包括第一情感、第二情感)类型可以包括但不限于：失落、平静、热情或者激情。本发明实施例对此不作限定，实际场景中可以根据需要自定义处理。例如，部分实施例中，第一情感还可以包括：喜悦、悲伤、痛苦、欣慰、兴奋、等，不作穷举。

此外，第一情感与第二情感所包含的情感类别可以相同也可以不同。示例性的，第一情感与第二情感均为失落、平静、热情或者激情这四种情感。示例性的，第一情感可以包括正面情感(例如，高兴、激动、喜悦、兴奋等)与负面情感(例如，失落、悲伤、痛苦等)，而第二情感可以仅包含正面情感，以针对用户的负面情感进行安抚。

本发明实施例中，还可以预设第一情感与第二情感之间的对应关系。该对应关系可以预先存储在终端中，或可存储在终端可读的存储位置，例如云端，对此不作限定。

具体而言，一个第一情感可以对应于一个或多个第二情感。例如，若第一情感为低落，则与之对应的第二情感可以为：喜悦或安抚。

S108，输出针对语音数据的响应语音，响应语音具备第二情感。

在具体实现本方案时，可以首先获取针对语音数据的响应内容，然后，根据第二情感与响应内容，生成响应语音，从而，可以输出响应语音。如此，输出的响应语音也就具备第二情感。

本发明实施例对于响应内容的确定方式无特别限定。示例性的，可以提前预设关键词与响应内容之间的对应关系，从而，通过识别语音数据中携带的关键词，来获取该关键词对应的响应内容，以作为该语音数据的响应内容。示例性的另一种实施例中，还可以利用神经网络模型来处理语音数据，从而，获取神经网络模型输出的响应内容。

在基于响应内容与第二情感生成响应语音时，可以利用默认的声音(音色)或用户选择的音色来生成响应语音。例如，用户可以选择某个名人的音色来作为响应语音的音色，从而，终端在生成响应语音时，就按照用户选择的名人的音色来进行生成。当然，这种实现方式的前提是终端能够获取到该名人的音色及授权，不作赘述。

在实际实现场景中，还可以提前针对所有可能的响应内容，提前生成多个不同情感的候选语音，并将这些候选语音预存在可读的存储位置。从而，在实际执行该步骤时，终端设备只需要在确定了第二情感后，只需要在存储位置中提取与该第二情感、响应内容相对应的一个候选语音，作为响应语音输出即可。

另外的实施例中，前述存储位置存储的候选语音也可以是由人工提前录制好的。

综上，在语音交互场景中，当采集到用户的与语音数据之后，可以识别用户的情感(第一情感)，并据此确定响应该语音时的情感(第二情感)，并输出具备第二情感的响应语音。如此，可以实时的针对用户的情感，选择不同的应答情感，能够有效提升响应语音与用户情绪的匹配程度，满足用户在不同情感状态下的情感需求，真实感和代入感更强，提高了语音交互体验，这也解决了现有的语音交互场景中响应语音与用户的情绪匹配度较低的问题。

现以图1所示实施例为基础，对本方案做进一步说明。

在图1所示的S104中，本发明实施例用于识别语音数据的第一情感，对此，本发明实施例具体提供如下处理方式：

第一种方式，对语音数据进行情感识别，得到情感识别结果，从而，将该情感识别结果所指示的情感作为第一情感。后续详述处理方式。

这种实现方式从声音这一维度出发，针对声音中携带的情感进行识别，实现方式简便可行。

第二种方式，对语音数据进行情感识别，得到情感识别结果；以及，将语音数据转换为文本数据，并解析文本数据的情感，得到情感解析结果；进而，结合声音与文本的识别结果，来确定第一情感。

这种实现方式从声音和内容(文本)两个维度出发，更加综合全面的解析用户所发出语音数据的情感状态，有利于提高识别结果的精度，进而，缩短响应语音与用户情感需求之间的差距，更加人性化，真实感也更强。

示例性的，图2示出了前述第一种实现方式对应的方法流程，此时S104包括如下步骤：

S1042，提取语音数据的语音特征。

本发明实施例中，可以提取语音数据的音频特征，然后，对音频特征进行归一化处理，并组成特征向量，得到语音数据的语音特征。

其中，本发明实施例所涉及到的音频特征可以包括但不限于：基频特征、短时能量特征、短时赋值特征、短时过零率特征中的一种或多种。

因此，在一种可能的实施例中，可以提取语音数据的基频特征、短时能量特征、短时赋值特征、短时过零率特征，然后，对这些特征分别进行归一化处理，组成一帧n维的特征向量，n为大于1的整数。实际场景中，不同语音数据获得的特征向量的维度可以不同。换言之，特征向量的n值可以根据实际场景或项目需要或根据经验值，来进行调整。对此不作限定。

S1044，利用训练好的情感分类器处理语音特征，得到情感识别结果。

本发明实施例中，情感分类器用于对语音数据的情感进行识别。后续对情感分类器的训练进行说明。

本发明实施例中，情感分类器可以提前进行离线训练，并部署在终端设备上。或者，还可以实时的基于当前数据，进行在线训练。或者，还可以由终端设备提前进行情感分类器的训练。或者，还可以将情感分类器提前训练，并部署在云端，此时，终端设备具备云端数据的访问权限。

本发明实施例中，情感分类器可以由多层卷积神经网络(Convolutional NeuralNetwork，CNN)与多层全连接网络构成；或者，情感分类器可以由多层CNN残差网络与多层全连接网络构成。例如，情感分类器可以为5层CNN残差网络和3层全连接网络。

由此，情感分类器中不包含长短期记忆网络(Long Short Term Memory，LSTM)或者循环神经网络(Recurrent Neural Network，RNN)等对序列数据进行处理的网络结构，而是基于CNN网络构建残差网络来提取语音数据的隐层特征，然后，再利用多层全连接网络对残差网络输出的隐层特征进行映射，如此，经柔性最大值传输函数(softmax)分类输出得到多分类识别结果。

并且，相对于单一的全连接网络，本发明实施例所使用的情感分类器中，能够使用CNN网络结构抽取特征，从而，能够在保证识别精度的同时，有效控制网络参数规模不会过大，避免情感分类器规模巨大，难以在终端侧有效部署的问题。

S1046，将情感识别结果所指示的情感确定第一情感。

情感分类器的输出为情感识别结果，而情感识别结果所指示的情感，则与情感识别结果的表示方式有关。

情感识别结果可以为多分类结果。例如，将情感分为失落，平静，热情，激情四分类。示例性，所述情感识别结果为所述语音数据在各情感中的概率，所述情感识别结果所指示的情感为所述概率最高的一种情感；或者，所述情感识别结果所指示的情感，为具备指示标识的一种情感；或者，所述情感识别结果为所述语音数据在各情感中的分值，所述情感识别结果所指示的情感，为所述分值落在的分数区间对应的一种情感。

具体的，情感识别结果可以为语音数据的情感概率，其中，情感识别结果所指示的情感(第一情感)为概率最高的一种情感。例如，情感分类器输出的情感识别结果可以为：失落2％，平静20％，热情80％，激情60％，那么，该情感识别结果所指示的情感为：热情。

此外，情感识别结果可以输出具备一个指示标识的多分类结果，此时，情感识别结果所指示的情感为具备指示标识的一种情感。指示标识可以为文字、数字、字符等中的一种或多种。举例说明。若1为指示标识，情感分类器输出的情感识别结果为：失落1，平静0，热情0，激情0，那么，该情感识别结果所指示的情感为：失落。

除此之外，情感识别结果还可以输出情感分，而各情感也分别对应于不同的分数区间，从而，情感识别结果所指示的情感，即为情感分所落在的分数区间对应的一种情感。

基于前述处理，即可直接基于语音数据获取到情感识别结果。

图3示出了前述第二种实现方式对应的方法流程，此时S104包括如下步骤：

S1042，提取语音数据的语音特征。

S1042～S1044的处理方式同前，不作赘述。

S1046，将语音数据转换为文本数据。

S1046～S1048用于从内容的角度出发，获取情感解析结果。应当理解，S1042～S1044和S1046～S1048之间无执行顺序上的关联，除S1042和S1044顺序执行、S1046和S1048顺序执行之外，本发明实施例对这些步骤的执行次序无特别限定，可以如图3所示顺序执行，也可以同时执行，或在执行S1042后，即开始执行S1046等，不作穷举。

具体实现该步骤时，可以通过语音解码器，将语音数据来转换为文本数据，对此不作详述。

S1048，对文本数据进行情感解析，得到情感解析结果。

具体实现时，可以识别文本数据中的情感关联词，然后，根据情感关联词，确定文本数据的情感解析结果。

其中，本发明实施例中所设计到的情感关联词，可以包括但不限于：语气词与程度词中的一种或多种。例如，语气词可以包括：“请”、“吧”、“呀”、“吗”等，程度词可以包括但不限于：“非常”、“很”、“狠”等，对此不作穷举。

在具体实现本方案时，可以预设各情感关联词对应的情感，然后，将情感关联词对应的情感，作为情感解析结果。

例如，若预设了“呀”对应的情感为“喜悦”，“吗”对应的情感为“难过”。仍以前述夸夸场景为例，若将用户发出的语音数据转换为文本数据后，其内容为“可以夸夸我吗”，那么，基于文本解析确定的第一情感为：难过。若将用户发出的语音数据转换为文本数据后，其内容为“夸夸我呀”，那么，基于文本解析确定的第一情感为：喜悦。

例如，若预设了同时有程度词和“呀”时对应的情感为“兴奋”，同时有程度词和“吗”对应的情感为“悲伤”。仍以前述夸夸场景为例，若将用户发出的语音数据转换为文本数据后，其内容为“可以小夸我一下吗”，那么，基于文本解析确定的第一情感为：悲伤。若将用户发出的语音数据转换为文本数据后，其内容为“狠夸我呀”，那么，基于文本解析确定的第一情感为：兴奋。

除此之外，还可以为各情感关联词预设情感分值。从而，可以识别文本数据中的所有情感关联词，然后，将这些情感关联词的情感分值进行加权处理(也可以直接求和或求平均)，然后，将加权分值作为情感解析结果。

S10410，根据情感识别结果与情感解析结果，确定第一情感。

在一种可能的实施例中，若情感识别结果与情感解析结果为分值的形式，则可以对二者进行加权处理(求和或求平均)，然后，将加权值所落在的情感区间对应的一种情感，作为第一情感。若二者中有一种或多种不是分值形式，则可以根据预设的算法，将情感识别结果(或情感解析结果)转换为分值形式后，进行加权处理，以确定第一情感。

在另一种可能的实施例中，当情感识别结果与情感解析结果各自指示的情感类别相同时，将情感识别结果所指示的情感类别作为第一情感。或者，当情感识别结果与情感解析结果各自指示的情感类别不同时，将情感识别结果与情感解析结果进行加权，并将加权处理后指示的情感类别作为第一情感。(转换为分值后加权，如前，不再赘述)

现以终端设备侧进行的情感分类器的训练过程为例，对情感分类器作进一步说明。

示例性的，图4示出了一种情感分类器的训练方法的流程示意图。该训练过程包括如下步骤：

S402，获取样本数据，样本数据包括：语音样本与文本样本中的一种或多种。

样本数据可以来自于真实的线上语音数据；和/或，语音数据也可以来自于制定数据。

其中，针对文本样本，还需要生成或人工朗读的方式，将其转换为语音样本，并最终以语音样本来进行训练。

示例性的，若没有获取到线上语音数据，则可以制定文本内容和相应的语气标准，然后采用人工有感情朗读的方式，获得不同语气情绪的语音样本。

本发明实施例中，语音样本的文本长度一般不宜过长，这是由于过长的语音，会导致语气的波动性较大，以及会导致环境噪声更加随机复杂。因此，一种可能的实施例中，语音样本的文本长度，可以控制在10-20字左右。

S404，获取样本数据对应的情感标签。

本发明实施例中，情感标签可以为onehot标签。

S406，利用样本数据与情感标签，对预设的基础分类器进行训练，得到情感分类器。

在该步骤中，进行情感分类器的训练之前，还可以对样本数据进行特征提取，得到个样本数据的样本特征。特征提取方式同前，不作赘述。

在提取到样本特征之后，可以采取整句不定长的训练方式，将一句话提取的特征作为分类器的输入，获取分类器输出的情感，然后，利用输出情感与情感标签之间的差异情况，来调整分类器的参数，最终得到分类准确率较高的情感分类器。

在具体的训练过程中，还可以使用变学习率，交叉熵，随机梯度以及交叉验证方式进行训练。

本发明实施例中，还可以对当前训练模型进行模型验证。模型验证分为测试环境搭建，以及模型测试两个过程。测试环境搭建，用于检验当前模型是否能够在不同终端，例如不同品牌的手机上，是否能够顺利搭建以及正常运行。因此，测试时需要在按真实场景进行离线测试。

测试过程可以包括但不限于以下两种测试方法。第一种测试方法可以为真人实时多次测试，然后统计识别结果的准确率，这种方法的好处是可以更好的模拟真实场景下的用户行为，测试的可信度更高。第二种测试方法为，真人在真实场景下录制测试集。测试集可根据需要录制一个或者多个，可重复利用，成本更低，并且可以在一定程度上保证测试的客观有效性。

示例性的，图5示出了本发明实施例的一种人际交互场景。如图5所示，一种司机端用户进行自夸的场景。如图5A所示，司机端用户可以在打车APP的司机端显示界面中，点击功能控件501进入夸夸界面，那么，终端可以显示如图5B所示界面。图5B为夸夸功能的显示界面，在该显示界面上，司机端用户可以发出语音，相应地，终端则采集实时的语音数据，也即执行S102步骤。之后，终端采集到语音数据后，可以执行前述S104和S106步骤，以识别出该语音数据的第一情感。那么，若识别出来自于司机端用户的实时的语音数据中为“夸夸我吧”，则可以确定针对该语音数据的应答内容。此时，在终端中显示如图5C所示的显示界面。如图5C所示，在当前的显示界面中，显示有针对“夸夸我吧”的响应语音503，具体为：“风里雨里，感谢不辞辛苦来接我”。实际实现过程中，终端可以采用第一情感来有感情的朗读该响应语音503。

除此之外，在图5B所示显示界面中，司机端用户还可以点击夸夸控件502，以触发夸夸功能，进而显示如图5C所示界面，不作赘述。在图5A所示的显示界面中，功能控件501中还可以对司机端新接收到的夸夸进行提示。

可以理解的是，上述实施例中的部分或全部步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

当用于本申请中时，虽然术语“第一”、“第二”等可能会在本申请中使用以描述各情感，但这些情感不应受到这些术语的限制。这些术语仅用于将一个情感与另一个情感区别开。比如，在不改变描述的含义的情况下，第一情感可以叫做第二情感，并且同样第，第二情感可以叫做第一情感，只要所有出现的“第一情感”一致重命名并且所有出现的“第二情感”一致重命名即可。第一情感和第二情感都是情感，但可以不是相同的情感。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

基于上述方法实施例所提供的人机交互方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

本发明实施例提供了一种终端，请参考图6，该终端600，包括：

采集模块62，用于采集当前的语音数据；

识别模块64，用于识别语音数据的第一情感；第一情感由文本情感识别结果或语音情感识别结果中的一种或多种获得；

确定模块66，用于确定第一情感状态对应的第二情感；

输出模块68，用于输出针对语音数据的响应语音，所述响应语音具备所述第二情感。

在一种可能的实施例中，识别模块64，具体用于：

提取语音数据的语音特征；

利用训练好的情感分类器处理语音特征，得到情感识别结果；

将情感识别结果所指示的情感确定第一情感。

在另一种可能的实施例中，识别模块64，具体用于：

提取语音数据的语音特征；

将语音数据转换为文本数据；

对文本数据进行情感解析，得到情感解析结果；

根据情感识别结果与情感解析结果，确定第一情感。

在另一种可能的实施例中，情感分类器由多层卷积神经网络CNN与多层全连接网络构成；或者，

情感分类器由多层CNN残差网络与多层全连接网络构成。

示例性一种实施例中，所述情感识别结果为所述语音数据在各情感中的概率，所述情感识别结果所指示的情感为所述概率最高的一种情感；或者，所述情感识别结果所指示的情感，为具备指示标识的一种情感；或者，所述情感识别结果为所述语音数据在各情感中的分值，所述情感识别结果所指示的情感，为所述分值落在的分数区间对应的一种情感。

在另一种可能的实施例中，识别模块64，具体用于：

提取语音数据的音频特征，音频特征包括：基频特征、短时能量特征、短时赋值特征、短时过零率特征中的一种或多种；

对音频特征进行归一化处理，并组成特征向量，得到语音数据的语音特征。

在另一种可能的实施例中，终端600还包括训练模块(图6未示出)，该训练模块具体用于：

获取样本数据，样本数据包括：语音样本与文本样本中的一种或多种；

获取样本数据对应的情感标签；

利用样本数据与情感标签，对预设的基础分类器进行训练，得到情感分类器。

在另一种可能的实施例中，识别模块64，具体用于：

识别文本数据中的情感关联词，情感关联词包括语气词与程度词中的一种或多种；

根据情感关联词，确定文本数据的情感解析结果。

在另一种可能的实施例中，识别模块64，具体用于：

当情感识别结果与情感解析结果各自指示的情感类别相同时，将情感识别结果所指示的情感类别作为第一情感；

当情感识别结果与情感解析结果各自指示的情感类别不同时，将情感识别结果与情感解析结果进行加权，并将加权处理后指示的情感类别作为第一情感。

在另一种可能的实施例中，第一情感包括：失落、平静、热情或者激情。

在另一种可能的实施例中，终端600还包括处理模块；处理模块(图6未示出)，具体用于：获取针对语音数据的响应内容；根据第二情感与响应内容，生成响应语音；

输出模块68，用于输出响应语音。

图6所示实施例的终端600可用于执行上述方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述，可选的，该终端600可以服务器或终端。

应理解以上图6所示终端600的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，输出模块68可以为单独设立的处理元件，也可以集成在终端600中，例如终端的某一个芯片中实现，此外，也可以以程序的形式存储于终端600的存储器中，由终端600的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central ProcessingUnit，CPU)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

并且，本发明实施例提供了一种终端，请参考图7，该终端600，包括：

存储器610；

处理器620；以及

计算机程序；

其中，计算机程序存储在存储器610中，并被配置为由处理器620执行以实现如上述实施例所述的方法。

其中，终端600中处理器620的数目可以为一个或多个，处理器620也可以称为处理单元，可以实现一定的控制功能。所述处理器620可以是通用处理器或者专用处理器等。在一种可选地设计中，处理器620也可以存有指令，所述指令可以被所述处理器620运行，使得所述终端600执行上述方法实施例中描述的方法。

在又一种可能的设计中，终端600可以包括电路，所述电路可以实现前述方法实施例中发送或接收或者通信的功能。

可选地，所述终端600中存储器610的数目可以为一个或多个，存储器610上存有指令或者中间数据，所述指令可在所述处理器620上被运行，使得所述终端600执行上述方法实施例中描述的方法。可选地，所述存储器610中还可以存储有其他相关数据。可选地处理器620中也可以存储指令和/或数据。所述处理器620和存储器610可以单独设置，也可以集成在一起。

此外，如图7所示，在该终端600中还设置有收发器630，其中，所述收发器630可以称为收发单元、收发机、收发电路、或者收发器等，用于与测试设备或其他终端设备进行数据传输或通信，在此不再赘述。

如图7所示，存储器610、处理器620与收发器630通过总线连接并通信。

若该终端600用于实现对应于图1中的方法时，例如，可以由收发器630输出响应语音。而处理器620用于完成相应的确定或者控制操作，可选的，还可以在存储器610中存储相应的指令。各个部件的具体的处理方式可以参考前述方法实施例的相关描述。

此外，本发明实施例提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如方法实施例所述的方法。

由于本实施例中的各模块能够执行方法实施例所示的方法，本实施例未详细描述的部分，可参考对方法实施例的相关说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种人机交互方法，其特征在于，包括：

采集当前的语音数据；

识别所述语音数据的第一情感；所述第一情感由文本情感识别结果获得；

确定所述第一情感状态对应的第二情感；

输出针对所述语音数据的响应语音，所述响应语音具备所述第二情感；

所述识别所述语音数据的第一情感，包括：

将所述语音数据转换为文本数据；

识别所述文本数据中的情感关联词，所述情感关联词包括语气词与程度词中的一种或多种；

若所述情感关联词包括语气词和程度词，为各所述情感关联词预设情感分值；

将所述文本数据中的所有情感关联词的情感分值进行加权处理，并将加权分值作为所述文本数据的情感解析结果；

根据情感解析结果，确定所述第一情感。

2.一种人机交互的方法，其特征在于，包括：

采集当前的语音数据；

识别所述语音数据的第一情感；所述第一情感由文本情感识别结果和语音情感识别结果获得；

确定所述第一情感状态对应的第二情感；

所述识别所述语音数据的第一情感，包括：

提取所述语音数据的语音特征；

利用训练好的情感分类器处理所述语音特征，得到情感识别结果；

将所述语音数据转换为文本数据；

将所述文本数据中的所有情感关联词的情感分值进行加权处理，并将加权分值作为所述文本数据的情感解析结果；；

根据所述情感识别结果与所述情感解析结果，确定所述第一情感。

3.根据权利要求2所述的方法，其特征在于，所述情感分类器由多层卷积神经网络CNN与多层全连接网络构成；或者，

所述情感分类器由多层CNN残差网络与多层全连接网络构成。

4.根据权利要求2所述的方法，其特征在于，所述情感识别结果为所述语音数据在各情感中的概率，所述情感识别结果所指示的情感为所述概率最高的一种情感；

或者，

所述情感识别结果所指示的情感，为具备指示标识的一种情感；

或者，

所述情感识别结果为所述语音数据在各情感中的分值，所述情感识别结果所指示的情感，为所述分值落在的分数区间对应的一种情感。

5.根据权利要求2所述的方法，其特征在于，所述提取所述语音数据的语音特征，包括：

提取所述语音数据的音频特征，所述音频特征包括：基频特征、短时能量特征、短时赋值特征、短时过零率特征中的一种或多种；

对所述音频特征进行归一化处理，并组成特征向量，得到所述语音数据的所述语音特征。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取样本数据，所述样本数据包括：语音样本与文本样本中的一种或多种；

获取所述样本数据对应的情感标签；

利用所述样本数据与所述情感标签，对预设的基础分类器进行训练，得到所述情感分类器。

7.根据权利要求2所述的方法，其特征在于，所述根据所述情感识别结果与所述情感解析结果，确定所述第一情感，包括：

当所述情感识别结果与所述情感解析结果各自指示的情感类别相同时，将所述情感识别结果所指示的情感类别作为所述第一情感；

当所述情感识别结果与所述情感解析结果各自指示的情感类别不同时，将所述情感识别结果与所述情感解析结果进行加权，并将加权处理后指示的情感类别作为所述第一情感。

8.根据权利要求1或2所述的方法，其特征在于，所述第一情感包括：失落、平静、热情或者激情。

9.根据权利要求1或2所述的方法，其特征在于，所述输出针对所述语音数据的响应语音，包括：

获取针对所述语音数据的响应内容；

根据所述第二情感与所述响应内容，生成所述响应语音；

输出所述响应语音。

10.一种终端，其特征在于，包括：

采集模块，用于采集当前的语音数据；

识别模块，用于识别所述语音数据的第一情感；所述第一情感由文本情感识别结果获得；

确定模块，用于确定所述第一情感状态对应的第二情感；

输出模块，用于输出针对所述语音数据的响应语音，所述响应语音具备所述第二情感；

所述识别模块，具体用于：

将语音数据转换为文本数据；

根据所述情感解析结果，确定第一情感。

11.一种终端，其特征在于，包括：

采集模块，用于采集当前的语音数据；

识别模块，用于识别所述语音数据的第一情感；所述第一情感由文本情感识别结果和语音情感识别结果获得；

确定模块，用于确定所述第一情感状态对应的第二情感；

所述识别模块，具体用于：

提取所述语音数据的语音特征；

将所述语音数据转换为文本数据；

12.一种终端，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-9任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-9任一项所述的方法。