CN110910898B

CN110910898B - 一种语音信息处理的方法和装置

Info

Publication number: CN110910898B
Application number: CN201811077551.2A
Authority: CN
Inventors: 孟笑君; 王雅圣; 张旸; 魏建生; 邓利群; 包飞; 黄雪妍; 梁伟宁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-15
Filing date: 2018-09-15
Publication date: 2022-12-30
Anticipated expiration: 2038-09-15
Also published as: CN110910898A

Abstract

本发明涉及人工智能技术，提供一种语音信息处理方法。在该方法中，信息处理设备接收语音信息，获取所述语音信息的语音情感极性结果和所述语音信息的语义情感极性结果，并根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息。本发明提供的方法根据语音信息的语音和语义两方面的情感极性结果为语音信息获取表情信息，能够更准确地确认语音信息传递的感情，提高了为所述语音信息匹配表情信息的准确度。

Description

一种语音信息处理的方法和装置

技术领域

本发明涉及自然语言处理领域，特别涉及一种语音信息处理的方法和装置。

背景技术

随着人工智能、通信和计算机技术的快速发展，语音文字转换技术被越来越多地应用于各种场合，例如，即时通讯应用，社交媒体应用，文字处理应用等。然而，仅仅将语音转换为枯燥的文字，无法真实地反映说话者的语气和心情，使得用户间的交流丰富性和生动性较差。

目前主流的输入法软件或即时通讯工具都支持插入表情图标，并且可以根据输入文本的内容推荐合适的表情供用户选择插入。比如在用户输入“开心”的时候，表情输入法自动推荐表情符号“O(∩_∩)O^-”在客户端界面，供用户选择使用。这种表情输入基于检索，当匹配到关键词以后，会推荐相应的表情。类似的变体还有通过网络搜索海量符号表情进行推荐，也是基于基本的关键词匹配。但是同一句话，用不同的语调和语气表达，所传达的情感信息可能完全不同。基于语义理解的表情输入法缺失语音特征，无法支持语音交互，对于语音输入无法推荐合适的表情。

发明内容

本发明实施例提供一种语音信息处理的方法和装置，根据语音信息的语音和语义两方面的情感极性结果为语音信息获取表情信息，能够更准确地确认语音信息传递的感情，提高了为所述语音信息匹配表情信息的准确度。

本发明第一方面提供一种语音信息处理方法。在该方法中，信息处理设备接收语音信息，获取所述语音信息的语音情感极性结果和所述语音信息的语义情感极性结果，并根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息，其中，所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的，表示一种或多种情感程度的值。当终端设备的数据处理能力强大时，所述方法中也可以由终端设备完成。

在第一方面的第一种可能的实现方式中，获取所述语音信息的语音情感极性结果按以下步骤实现：提取所述语音信息中的语音特征并将所述语音特征代入语音情感分类模型获取所述语音信息的语音情感极性结果。在一种可能的实现方式中，所述语音情感分类模型由深度学习模型训练得到。

在第一方面的第二种可能的实现方式中，获取所述语音信息的语义情感极性结果按以下步骤实现：将所述语音信息转换成文本序列，提取所述文本序列的文本特征并将所述文本特征代入语义情感分类模型获取所述语音信息的语义情感极性结果。在一种可能的实现方式中，所述语义情感分类模型由深度学习模型训练得到。

在第一方面的第三种可能的实现方式中，所述语音情感极性结果或所述语义情感极性结果为一个多维度向量，所述多维度向量的每一个维度表示一种情感类别，所述每一个维度的值表示一种情感的程度。

在第一方面的第四种可能的实现方式中，根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息按以下步骤实现：对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果；和根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。本实现方式根据语音和语义两方面的情感极性查询极性相同或相近的表情信息，提高了为所述语音信息匹配表情信息的准确性。

在第一方面的第五种可能的实现方式中，根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息按以下步骤实现：构建超平面V_γ＝γV₁+(1-γ)V₂，其中，V₁为所述语音情感极性结果，V₂为所述语义情感极性结果，0≤γ≤1；和获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。本实现方式通过构建超平面查询表情信息，避免查询结果聚拢在特定区域，以保证获取的表情信息能覆盖所述语音信息传递的用户情感。

在第一方面的第六种可能的实现方式中，信息处理设备或终端设备根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。

在第一方面的第七种可能的实现方式中，终端设备根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。

在第一方面的第八种可能的实现方式中，终端设备将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中，或提示用户将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中。

在第一方面的第九种可能的实现方式中，终端设备使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的情绪。

在第一方面的第十种可能的实现方式中，终端设备查询预设的表情信息与动作控制指令的对应关系表，获得所述表情信息对应的动作控制指令，和执行所述动作控制指令。

本发明第二方面提供一种语音信息处理方法。在该方法中，信息处理设备或终端设备接收语音信息，获取所述语音信息的语音情感极性结果和/或所述语音信息的语义情感极性结果，所述终端设备根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息或者所述终端设备根据所述语音情感极性结果和/或所述语义情感极性结果对所述语音消息进行分类标识。

本发明第三方面提供一种信息处理设备。所述信息处理设备包括收发模块、语音情感极性获取模块、语义情感极性获取模块和表情信息获取模块。所述收发模块用于接收语音信息。所述语音情感极性获取模块用于获取所述语音信息的语音情感极性结果。所述语义情感极性获取模块用于获取所述语音信息的语义情感极性结果。所述表情信息获取模块用于根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息，其中，所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的，表示一种或多种情感程度的值。

在第三方面的第一种实现方式中，所述语音情感极性获取模块具体用于提取所述语音信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结果。

在第三方面的第二种实现方式中，所述语义情感极性获取模块具体用于将所述语音信息转换成文本序列，提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模型获取所述语义情感极性结果。

在第三方面的第三种实现方式中，所述表情信息获取模块具体用于对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果，并根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。

在第三方面的第四种实现方式中，所述表情信息获取模块具体用于构建超平面V_γ＝γV₁+(1-γ)V₂，其中，V₁为所述语音情感极性结果，V₂为所述语义情感极性结果，0≤γ≤1；并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。

在第三方面的第五种实现方式中，所述信息处理设备进一步包括情感极性结果使用模块，用于根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。

在第三方面的第六种实现方式中，所述信息处理设备进一步包括情感极性结果使用模块，用于根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。

在第三方面的第七种实现方式中，所述信息处理设备进一步包括表情信息使用模块，用于将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中，或提示用户将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中。

在第三方面的第八种实现方式中，所述信息处理设备进一步包括表情信息使用模块,用于使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的情绪。

在第三方面的第九种实现方式中，所述信息处理设备进一步包括表情信息使用模块,用于查询预设的表情信息与动作控制指令的对应关系表，获得所述表情信息对应的动作控制指令并执行所述动作控制指令。

本发明第四方面提供一种信息处理设备，所述信息处理设备包括存储器、处理器、通信接口以及总线。其中，存储器、处理器、通信接口通过总线实现彼此之间的通信连接。所述存储器存储有程序，当所述程序被处理器执行时，处理器和通信接口用于执行如前述本发明第一方面、本发明第一方面的第一至十种实现方式或本发明第二方面中任意一项所述的方法。

本发明第五方面提供一种计算机可读存储介质，其中，所述存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如前述本发明第一方面、本发明第一方面的第一至十种实现方式或本发明第二方面中任意一项所述的方法。

本发明第六方面提供一种计算机程序产品，当其在计算机上运行时，使得计算机执行如前述本发明第一方面、本发明第一方面的第一至十种实现方式或本发明第二方面中任意一项所述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种语音信息处理系统示意图；

图2为本发明实施例提供的一种语音信息处理方法流程图；

图3为本发明实施例提供的二维平面表情信息查询示意图；

图4为本发明实施例提供的另一种语音信息处理方法流程图；

图5为本发明实施例提供的一种信息处理设备的示意性框图；

图6为本发明实施例提供的一种信息处理设备的硬件结构图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行描述。

如图1所示，本发明实施例提供的一种语音信息处理系统包括终端设备101以及信息处理设备102。所述终端设备101和信息处理设备102通过网络连接，其连接方式可以为有线或无线。

所述终端设备101包括手机、个人电脑、穿戴设备、车载终端、机器人等智能终端。所述终端设备101上可以安装各种应用，例如：输入法类应用、即时通信类应用、社交媒体类应用、浏览器类应用、搜索类应用、文字处理类应用等。所述终端设备101可以接收来自用户的语音信息，所述语音信息可以用户在使用上述终端设备101上的应用时使用语音输入功能输入的语音信息,也可以是机器人产品使用者在与机器人交互的过程中输入的语音信息。

所述信息处理设备102可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备。所述信息处理设备102通过网络接收来自所述用户设备的语音、文本等信息，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。所述存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，所述数据库可以在信息处理设备上，也可以在其它网络服务器上。可选地，在一些实现方式中，根据终端设备不同的数据处理能力，上述信息处理设备102的部分或全部功能也可以由终端设备101实现。

在本发明的一个实施例中，所述信息处理设备102接收所述终端设备101发送的语音信息，获取所述语音信息的语音情感极性结果和语义情感极性结果，并根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音对应的一个或多个表情信息。在本发明实施例中，所述情感极性结果，包括所述语音情感极性结果或所述语义情感极性结果，为根据所述语音信息识别或产生的表示一种或多种情感程度的值。

可选地，该语音信息处理系统还可以包括数据采集设备103和训练设备104。数据采集设备103用于采集语音数据并存入数据库，训练设备104基于数据库中维护的语音数据生成目标模型/规则。根据训练设备训练得到的目标模型/规则可以应用于不同的系统或设备中，如应用于图1所示的信息处理设备或终端设备上。在实际的应用中，所述数据库中维护的训练数据不一定都来自于数据采集设备103的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备104也不一定完全基于数据库维护的训练数据进行目标模型/规则的训练，也有可能从云端或其他设备获取训练数据进行模型训练。在本发明的一个实施例中，所述训练设备104利用深度学习模型训练得到语音情感分类模型和语义情感分类模型以供信息处理设备102使用。信息处理设备102将语音特征向量代入语音情感分类模型计算得到语音情感极性结果，将文本特征向量代入语义情感分类模型计算得到语义情感极性结果。

可选地，在一些实现方式中，所述数据采集设备103、数据库及训练设备104可以全部或部分集成在信息处理设备102中，也可以设置其它网络服务器上。可选地，在一些实施例中，根据终端设备101不同的数据处理能力，上述数据采集设备103、数据库及训练设备104也可以全部或部分集成在终端设备101中。

在本发明的一个实施例中，所述训练设备104利用深度学习模型，例如多层感知器MLP(Multi-Layer Perceptron)，训练得到语音情感分类模型和语义情感分类模型。所述语音情感分类模型和语义情感分类模型用来供所述信息处理设备102计算所述语音信息的语音情感极性结果和语义情感极性结果使用。

如图2所示，本发明实施例提供一种语音信息处理方法。

在步骤201中：信息处理设备接收语音信息。

具体地，信息处理设备可以从终端设备或其他网络设备或者用户处接收语音信息。

在步骤202中：信息处理设备获取所述语音信息的语音情感极性结果。

具体地，信息处理设备从所述语音信息中提取语音特征，例如，信息处理设备经过预处理、频谱分析等提取所述语音信息中和语气、语调等相关的语音特征。所述预处理可以包括去噪或去静音等操作。

所述语音特征包括韵律、音量、音高、谱通量或共振峰等中的一个或多个参数，这些参数可以从不同角度来反映语音中的情感信息。所述语音特征可以用向量的形式表达，例如，语音特征向量F＝(韵律，音量，音高，谱通量，共振峰)。然后，信息处理设备可以将语音特征向量代入语音情感分类模型获取所述语音特征的情感极性结果，即语音情感极性结果V1。所述语音情感分类模型可以由训练设备利用深度学习模型，例如多层感知器MLP(Multi-Layer Perceptron)，训练得到。

在本发明实施例中，所述语音情感极性结果可以通过一个多维的向量表达。例如，通过Happy(高兴),Peace(平和),Angry(生气),Sad(伤心)四个维度的向量来表示，即向量(Happy，Peace，Angry，Sad)，向量的每个维度表示一种情感类别，每个维度的值表示相应类别情感的程度。例如，语音情感极性结果V₁＝(1,0,0,0)表示该情感极性结果是完全Happy(高兴)的，或者语音情感极性结果V₁＝(0.5,0,0,0.5)表示该情感极性结果是喜忧参半的。上述四个维度只是一个举例，当然也可以采用更多，更丰富的维度，或者采用更少，更简洁的维度来表示所述情感极性结果，本发明对此不做限定。

在步骤203中：信息处理设备获取所述语音信息的语义情感极性结果。

具体地，信息处理设备从所述语音信息中提取文本特征，例如，将所述语音信息转换成文本序列，例如，通过ASR(Automatic Speech Recognition)技术将所述语音信息语音转文本技术转换成文本序列。可选地，信息处理设备可以对所述文本序列进行文本处理，例如，分词、过滤等操作，提取文本特征。

在本发明实施例中，信息处理设备可以将所述本文特征通过词嵌入(wordembedding)、句嵌入(sentence embedding)技术，将一个单词或者句子转换成文本特征向量表示。然后，信息处理设备可以将文本特征向量作为输入向量，代入语义情感分类器获取该文本特征的情感极性结果，即语义情感极性结果V₂。所述语义情感分类器可以利用深度学习模型，例如多层感知器MLP训练得到。所述语义情感极性结果V₂可以通过一个多维的向量表达，与前述语音情感极性结果的表达一样，具体示例可参考语音情感极性结果部分的描述。

本发明实施例对步骤202和步骤203的执行先后顺序不做限定，也可以两个步骤同时进行。

在步骤204中，信息处理设备根据所述语音信息的语音情感极性结果和语义情感极性结果，获取所述语音信息对应的表情信息。

可选地，所述信息处理设备可以通过查询表情信息数据库，例如emoji(日本舶来语，含义是：表情符号/图标)表情词典，获取所述语音信息相应的一表情信息，例如，一个或多个表情符号、图片。所述表情信息数据库可以存储在信息处理设备上，也可以存储在终端设备或其他设备，例如云服务器上。

表情信息数据库可以利用现有的数据库，也可以按照本发明实施例建立一个。在本发明实施例的一个示例中，所述表情信息数据库可以按照如下方法建立：收集有emoji表情信息的语料，标识所述语料中每条语句所属的情感类别，将所述语句中的表情信息的情感极性结果以向量的形式表示。例如，可以通过Happy(高兴),Peace(平和),Angry(生气),Sad(伤心)四个维度来表示所述情感类别，当然，也可以采用更多或更少的维度来表示。

示例性地，如果某条语句的表情信息为大笑表情符

则可以将所述语句的情感类别标识为Happy(高兴)，相应地，所述表情信息，即大笑表情符

的情感极性向量表达为V＝(1,0,0,0)。

然后，可以将所述表情信息加入到所述表情信息数据库中。如果所述表情信息已经存在，则可以更新表情信息数据库中所述表情信息的频数N和情感极性向量V。示例性的，更新方法可以是求平均值，例如按照以下公式更新：

其中，N_new为更新后的频数，N_old为更新前的频数，V_new为更新后的情感极性向量，V_old为更新前的情感极性向量。

在本发明实施例中，可以通过如下方法查询所述表情信息数据库：

1.根据所述语音情感极性结果V₁和所述语义情感极性结果V₂得到所述语音信息的情感极性结果，例如，可以对所述V₁和V₂求平均值或求加权平均值得到所述语音信息的情感极性结果V。然后根据所述语音信息的情感极性结果V查询表情信息数据库得到相应的表情信息。

本发明实施例根据语音和语义两方面的情感极性查询极性相同或相近的表情信息，提高了为所述语音信息匹配表情信息的准确性。

或者，通过构建超平面的方式查询表情信息数据库，如下：

2.基于所述语音情感极性结果V₁和所述语义情感极性结果V₂构建超平面V_γ＝γV₁+(1-γ)V₂(0≤γ≤1)。在所述表情信息数据库中查询距离Vγ所构成的超平面最近的一个或较近的多个表情符号、图片作为所述语音消息对应的表情信息。其中，所述表情信息与超平面的距离是指欧几里得距离。例如，可以计算各个表情符号距离所述超平面的欧几里得距离，并按距离由近及远选取三个表情符号作为查询得到的表情信息。

图3为二维平面表情信息查询示意图。在该示例中，情感极性结果为二维向量，则由语音信息的语音情感极性结果V₁和语义情感极性结果V₂构建的超平面V_γ是V₁和V₂之间的线段，在表情信息数据库中，距离该线段最近的三个表情图片，即图3中虚线框标识的三个表情图片为语音消息对应的表情信息。以二维向量和二维平面为例只是为了方便图示，本领域技术人员在此基础上可以理解更高维度的情感极性结果向量及更高维度的超平面如何实现表情信息的查询。

本发明实施例通过构建超平面查询表情信息，避免查询结果聚拢在特定区域，以保证获取的表情信息能覆盖所述语音信息传递的用户情感。

信息处理设备获取表情信息后可以将所述发送给终端设备以便终端设备使用。终端设备使用所述表情信息可以是直接使用，例如，在输入法应用或社交媒体应用中，终端设备直接将所述表情信息插入用户编辑的语音或文本信息中。或者，在机器人产品中，机器人使用所述表情信息来表示与所述机器人交互的用户的情绪。

终端设备使用所述表情信息也可以是提示用户使用，例如，在输入法应用或社交媒体应用中，终端设备显示所述表情信息，供用户从候选的表情符号、图片中选择合适的使用。用户可以手动点击所述表情符号、图片进行选择，也可以通过语音进行选择，例如用语音指令“选择表情一”来指示终端设备选择所述表情符合、图片。

如前述的系统实施例中描述，根据终端设备不同的数据处理能力，信息处理设备的部分或全部功能也可以由终端设备实现。因此，本实施例中步骤201-204中的一个或多个步骤也可以由终端设备执行。

本发明实施例提供的语音信息处理方法根据语音信息的语音和语义两方面的情感极性结果为语音信息获取表情信息，能够更准确地确认语音信息传递的感情，提高了为所述语音信息匹配表情信息的准确度。

本发明实施例还提供的另一种语音信息处理方法，该方法使用前述方法步骤202和203产生的情感极性结果对所述语音信息进行提示或分类标识。如图4所示，所述方法包括如下步骤：

在步骤401中：信息处理设备接收语音信息。

在步骤402中：信息处理设备并获取所述语音信息的语音情感极性结果。

在步骤403中：信息处理设备获取所述语音信息的语义情感极性结果。

步骤401-403与前述方法实施例中的步骤201-203类似，此处不再赘述。

可选地，在步骤404中：终端设备根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。

例如，当所述语音情感极性结果和/或所述语义情感极性结果为Happy(高兴)时，所述终端设备在提示用户有新的消息时，可以用高兴的合成语音来提示用户“您有一条新的消息”。

可选地，在步骤405中：终端设备根据所述语音情感极性结果和/或所述语义情感极性结果对所述语音消息进行分类标识。

例如，当所述语音情感极性结果和/或所述语义情感极性结果为Happy(高兴)时，所述终端设备将所述语音消息分类标识为“高兴”类别。在后续的使用中，例如，用户指示终端设备想听“高兴”的消息，则所述终端设备显示或播报情感极性结果分类标识为Happy(高兴)的消息。

步骤404和405为可选步骤，它们可以被择一执行或都被执行。步骤404和405中可以单独使用所述语音情感极性结果或所述语义情感极性结果，相应的，所述步骤402和403只需执行一个。步骤404和405中也可以同时使用所述语音情感极性结果和所述语义情感极性结果，此时可以对所述语音情感极性结果和所述语义情感极性结果进行求平均值或求加权平均值操作或其他操作。

本发明实施例还提供了终端设备对表情信息的多种使用方法，在下面介绍的使用方法中，所述表情信息，即表情符号或图片可以是按照前述本发明实施例提供的语音信息处理方法确定的，也可以是按照其他现有的方法产生或确认的，本发明对此不做限定。

表情信息使用方案一：

在本发明的一个表情信息使用实施例中，终端设备是智能手表或者机器人，例如，用于儿童陪伴或老人陪伴的机器人。在该方法中，终端设备获取与用户交互过程中的语义和/或语音情感极性结果，并通过与所述语义和/或语音情感极性结果对应的表情信息来表示用户的情绪/情感。

例如，终端设备与用户每一次交流的语音，都生成一个相应的表情符号，用表情符号生成一段时间内的用户的情感变化趋势图，以体现用户的心理/情感状态。或者把一天内出现次数最多的表情符号作为当日表情符号呈现一周内的情绪变化。

表情信息使用方案二：

本发明的另一个实施例提供的表情信息使用方法中，终端设备或信息处理设备对用户使用所述终端设备上安装的应用发出或记录的文本和/或语音信息进行情感极性分析和统计，例如，用户发出/记录一次文本和/或语音信息，就相应生成一个表情符号，并将一定周期内出现最多的表情符号用于标识所述用户使用所述应用联系的对象。例如，如图所示，在即时通信应用中，将用户对某个联系人发送文本和/或语音信息对应的表情符号作为该联系人的头像。

表情信息使用方案三：

本发明的另一个实施例提供的表情信息使用方法用于为用户提供隐私保护。在本实施例中，当终端设备收到一个与所述终端设备的用户关系亲密的联系人的文本和/或语音信息时，或者，当所述终端设备收到的文本和/或语音信息涉及到用户隐私时，用户正处于公共场合或用户旁边有其他人，则终端设备用所述表情信息来代替显示所述文本和/或语音信息。

用户是否处于公共场合或旁边有其他人，终端设备可以通过声纹或图像识别等身份识别技术来确定。或者用户也可以通过在终端设备上设置的隐私模式，从而触发终端设备以表情信息来呈现文本和/或语音信息。

表情信息使用方案四：

在本发明的另一个实施例提供的表情信息使用方法中，终端设备，例如机器人，可以根据所述表情信息表达相应的表情或动作。所述表情信息与所述表情或动作的对应关系可以预先存储在终端设备中。例如，当确定表情信息为“微笑”的表情符号

所述机器人可以做出“微笑”的表情。例如，机器人的面部可以是一块高清LCD或LED显示屏，或者通过三块显示屏分别显示左眼、右眼和嘴巴。所述表示微笑的表情符号可以显示在机器人的面部显示屏上。如前面所述，本发明表情信息使用的实施例并不限定所述表情信息的产生或确认方式。

本发明的另一个实施例提供的表情信息使用方法包括以下步骤：

提取输入的文本和/语音信息所携带的表情信息，如果在所述输入的信息中没有检测到表情信息，则利用前述本发明实施例提供的方法生成所述输入信息对应的表情信息；

在预先设定的表情信息与动作控制指令的对应关系表中，查询所述表情信息对应的动作控制指令，终端设备(例如机器人)执行所述动作控制指令以模拟所述表情信息对应的动作；

如果没有查询到所述表情信息对应的动作，终端设备可以利用图像识别技术，提取所述表情信息中的肢体特征和/或动作，并模拟所述肢体特征和/或动作。

所述机器人具有处理单元、存储单元，以及以下至少之一：可以活动的主体、头部和肢体。所述肢体至少包括手臂、手掌，以及连接手掌和手臂的关节。其中，手臂可以是一个整体的部件，或者由前臂和上臂以及连接二者的关节组成。存储单元中存储有表情信息与动作控制之间的对应关系，其中，动作控制指令可以包括拥抱、摸头、握手、抬头、低头、转身等。

示例性的，动作控制指令与所述控制指令执行后机器人的动作的对应关系如下表所示。

处理器根据表情信息确定动作控制指令后，调用动作控制指令对应的动作函数，使机器人完成相应的动作。

在一个示例中，所述机器人接收到妈妈发送的“拥抱”表情图片

根据查询表情信息与表情或动作的对应关系，所述机器人得到动作控制指令为“拥抱”，并调用动作函数执行“拥抱”所对应的动作。

表情信息使用方案五：

本发明的另一个实施例提供的表情信息使用方法用表情信息对终端设备或终端设备上运行的应用程序进行设置。

在本实施例中可以预先定义不同的表情信息终端设备的设置之间的对应关系和/或不同的表情信息与应用程序的运行步骤之间的应关系。当终端设备接收或产生表情信息时，终端设备根据所述对应关系做出与所述表情信息对应的设置，或者应用程序根据所述对应关系执行与所述表情信息对应的运行步骤。

在一个示例中，终端设备为智能空调，当所述智能空调接收到有风和落叶的“冷”表情图片，则所述智能空调提高温度设置。在另一个示例中，终端设备智能手机，当所述智能手机接收到有风和落叶的“冷”表情图片时，触发所述智能手机上安装的音乐应用程序播放与“秋风”、“落叶”相关的歌曲。

图5为本发明实施例提供的一种信息处理设备的示意性框图。如图5所示，所述信息处理设备包括收发模块501、语音情感极性获取模块502、语义情感极性获取模块503和表情信息获取模块504。

所述收发模块501用于接收语音信息。例如，从终端设备或其他设备或用户处接收语音消息。

所述语音情感极性获取模块502用于获取所述语音信息的语音情感极性结果。具体地，所述语音情感极性获取模块502可以用于执行前述方法实施例中的步骤来获取所述语音特征的情感极性结果。在一个示例中，所述语音情感极性获取模块具体用于提取所述语音信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结果。

所述语义情感极性获取模块503用于获取所述语音信息的语义情感极性结果。具体地，所述语义情感极性获取模块503可以用于执行前述方法实施例中的步骤来获取所述语义情感极性结果。在一个示例中，所述语义情感极性获取模块具体用于将所述语音信息转换成文本序列，提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模型获取所述语义情感极性结果。

所述表情信息获取模块504用于根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的表情信息。所述情感极性获取模块504可以用于执行前述方法实施例中的步骤来获取所述表情信息。在一个示例中，所述表情信息获取模块具体用于对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果，并根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。在另一个示例中，所述表情信息获取模块具体用于构建超平面V_γ＝γV₁+(1-γ)V₂，其中，V₁为所述语音情感极性结果，V₂为所述语义情感极性结果，0≤γ≤1；并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。

可选地,所述收发模块501还用于将所述表情信息发送给终端设备。

可选的，在另一个实施例中，所述信息处理设备还包括情感极性结果使用模块505，所述情感极性结果使用模块505用于根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。或者，所述情感极性结果使用模块505用于根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。

可选地，在另一个实施例中，述信息处理设备还包括表情信息使用模块506。

在一个示例中，所述表情信息使用模块用于将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中，或提示用户将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中。

在另一个示例中，所述表情信息使用模块用于使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的情绪。

在另一个示例中，所述表情信息使用模块用于查询预设的表情信息与动作控制指令的对应关系表，获得所述表情信息对应的动作控制指令并执行所述动作控制指令。

情感极性结果使用模块505和表情信息使用模块506为可选模块，它们通过执行前述方法实施例中的步骤来实现相应功能。

以上所描述的信息处理设备的结构是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，本发明实施例中描述的各个功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中，或者是一个或以上模块集成在另一个设备上。上述模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个方法实施例中的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

图6是本发明实施例提供的信息处理设备的硬件结构示意图。图6所示信息处理设备包括存储器601、处理器602、通信接口603以及总线604。其中，存储器601、处理器602、通信接口603通过总线604实现彼此之间的通信连接。

存储器601可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器601可以存储程序，当存储器601中存储的程序被处理器602执行时，处理器602和通信接口603用于执行前述方法实施例中的步骤。

在一种示例中，处理器602可以采用通用的中央处理器(Central ProcessingUnit，CPU)，数字信号处理器(Digital Signal Processing，DSP)，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processingunit，GPU)，现成可编程门阵列(Field Programmable Gate Array，FPGA)或者一个或多个集成电路，用于执行相关程序，以实现前述实施例提供的信息处理设备中的模块所需执行的功能，或者执行前述方法实施例中的步骤。

在另一种示例中，处理器602还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，前述实施例提供的语音信息处理方法的各个步骤可以通过处理器902中硬件的集成逻辑电路或者软件形式的指令完成。

通信接口603使用例如但不限于收发器一类的收发装置，来实现信息处理设备与其他设备或通信网络之间的通信。

总线904可包括信息处理设备各个部件之间传送信息的通路。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，本申请描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音信息处理方法，其特征在于，包括：

接收语音信息；

提取所述语音信息中的语音特征，所述语音特征包括韵律、音量、音高、谱通量或共振峰中的一个或多个参数；和

将所述语音特征代入语音情感分类模型获取所述语音信息的语音情感极性结果；

将所述语音信息转换成文本序列；

提取所述文本序列的文本特征；和

将所述文本特征代入语义情感分类模型获取所述语音信息的语义情感极性结果；

根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息，其中，所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的，表示一种或多种情感程度的值；

根据所述语音情感极性结果V₁和所述语义情感极性结果V₂得到所述语音信息的情感极性结果，对所述V₁和V₂求平均值或求加权平均值得到所述语音信息的情感极性结果V；根据所述语音信息的情感极性结果V查询表情信息数据库得到相应的表情信息；

将所述表情信息加入到表情信息数据库中，如果所述表情信息已经存在，则更新所述表情信息数据库中所述表情信息的频数和情感极性向量，所述表情信息的频数和情感极性向量满足以下公式：

2.如权利要求1所述的方法，其特征在于，所述语音情感极性结果或所述语义情感极性结果为一个多维度向量，所述多维度向量的每一个维度表示一种情感类别，所述每一个维度的值表示一种情感的程度。

3.如权利要求1所述的方法，其特征在于，所述根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息包括：

对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果；和

根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。

4.如权利要求1所述的方法，其特征在于，所述根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息包括：

构建超平面V_γ＝γV₁+(1-γ)V₂，其中，V₁为所述语音情感极性结果，V₂为所述语义情感极性结果，0≤γ≤1；和

获取表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。

5.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。

6.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

根据所述语音情感极性结果和/或所述语义情感极性结果提示语音消息。

7.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中，或提示用户将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中。

8.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的情绪。

9.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

查询预设的表情信息与动作控制指令的对应关系表，获得所述表情信息对应的动作控制指令，并执行所述动作控制指令。

10.一种信息处理设备，其特征在于，包括：

收发模块，用于接收语音信息；

语音情感极性获取模块，用于获取所述语音信息的语音情感极性结果；

所述语音情感极性获取模块具体用于提取所述语音信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结果；所述语音特征包括韵律、音量、音高、谱通量或共振峰中的一个或多个参数；

语义情感极性获取模块，用于获取所述语音信息的语义情感极性结果；

所述语义情感极性获取模块具体用于将所述语音信息转换成文本序列，提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模型获取所述语义情感极性结果；和

表情信息获取模块，用于根据所述语音情感极性结果和所述语义情感极性结果，获取所述语音信息对应的一个或多个表情信息，其中，所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的，表示一种或多种情感程度的值；

11.如权利要求10所述的设备，其特征在于，所述表情信息获取模块具体用于对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果，并根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。

12.如权利要求10所述的设备，其特征在于，所述表情信息获取模块具体用于构建超平面V_γ＝γV₁+(1-γ)V₂，其中，V₁为所述语音情感极性结果，V₂为所述语义情感极性结果，0≤γ≤1；并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。

13.如权利要求10所述的设备，其特征在于，所述设备进一步包括：

情感极性结果使用模块：用于根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。

14.如权利要求10所述的设备，其特征在于，所述设备进一步包括：

情感极性结果使用模块：用于根据所述语音情感极性结果和/或所述语义情感极性结果提示语音消息。

15.如权利要求10所述的设备，其特征在于，所述设备进一步包括：

表情信息使用模块：用于将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中，或者提示用户将所述表情信息插入所述语音信息或所述语音信息转换成的文本信息中。

16.如权利要求10所述的设备，其特征在于，所述设备进一步包括：

表情信息使用模块：用于使用所述表情信息标识联系人，或者使用所述表情信息表示发送所述语音信息的用户的情绪。

17.如权利要求10所述的设备，其特征在于，所述设备进一步包括：

表情信息使用模块：用于查询预设的表情信息与动作控制指令的对应关系表，获得所述表情信息对应的动作控制指令并执行所述动作控制指令。

18.一种信息处理设备，其特征在于，包括：处理器，存储器和通信接口，其中，所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，所述处理器和通信接口用于执行如权利要求1-9任意一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-9任意一项所述的方法。