CN110377726B

CN110377726B - 一种人工智能实现自然语言文本情绪识别方法与装置

Info

Publication number: CN110377726B
Application number: CN201910487656.3A
Authority: CN
Inventors: 焦俊一
Original assignee: Light Controls Tesilian Shanghai Information Technology Co ltd
Current assignee: Optical Control Teslian (Shanghai) Information Technology Co., Ltd.
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2020-08-25
Anticipated expiration: 2039-06-05
Also published as: CN110377726A

Abstract

本申请实施例提供一种人工智能实现自然语言文本情绪识别方法与装置，其中方法包括：获取目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息；确定所述目标文本信息中的情绪词和非情绪词；根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量；将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。本申请实施例的人工智能实现自然语言文本情绪识别方法与装置，能够对文本交互方式的交流和公共服务当中的自然语言文本的情绪因素进行识别。

Description

一种人工智能实现自然语言文本情绪识别方法与装置

技术领域

本申请涉及自然语言技术领域，尤其涉及一种人工智能实现自然语言文本情绪识别方法与装置。

背景技术

众所周知，人类利用自然语言进行交流的时候，除了信息量的交换以外，还有情绪因素的相互传递。比如，对于同一个事物的描述，对于同一个需求的提出，在不同的情绪支配下，人们会选择不同的自然语言加以表达，而表达的接受者基于其社会经验和主观判断，一般也会具有较大可能性获知自然语言携带的情绪因素，并给予必要的响应。

目前在QQ、微信、电子邮件等网络和即时通信工具完全普及的背景下，人们交流的方式更多的是采用输入、传递和阅读自然语言的文本交互的方式，而且越来越多企业单位乃至政府机关的客户服务、问题解答、投诉反馈也都采用文本交互。相比面谈、电话、视频连线等交流方式，由于不能获得对方的表情和语调，容易对情绪因素给予忽视或者误判。当然有些工具提供了用表情符号传递情绪的方式，但是尚不足以对所表达的情绪进行完整的传达。

另外，随着人工智能技术的发展，在上述文本交互方式的交流和公共服务当中，逐步采用人工智能系统取代人力进行反馈与回复，可以提高及时性，降低成本，但是同时更加容易对自然语言文本的情绪因素给予完全忽视。

发明内容

有鉴于此，本申请的目的在于提出一种人工智能实现自然语言文本情绪识别方法与装置，来解决现有技术中在文本交互方式的交流和公共服务当中，自然语言文本的情绪因素表现的不直观，进而难以识别的技术问题。

基于上述目的，在本申请的第一个方面，提出了一种人工智能实现自然语言文本情绪识别方法，包括：

获取目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息；

确定所述目标文本信息中的情绪词和非情绪词；

根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量；

将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。

在一些实施例中，还包括：

对所述目标文本信息进行切词和去停用词，生成有效词集合，并将所述有效词集合中的有效词按照在所述目标文本信息中的先后顺序进行排列。

在一些实施例中，所述确定所述目标文本信息中的情绪词和非情绪词，包括：

将所述目标文本信息中的有效词与预先建立的情绪词库中的情绪词进行比对，确定所述有效词中的情绪词，将情绪词以外的其他有效词确定为非情绪词。

在一些实施例中，所述预先建立的情绪词库中情绪词还对应有强度因数，在确定所述有效词中的情绪词后，还包括：

确定所述有效词中的情绪词的强度因数。

在一些实施例中，还包括：

对于情绪词中的每一个，若该情绪词前后预设范围内具有同类别的情绪词，则每存在一个同类别的其他情绪词，对该情绪词的强度因数乘一个增强系数，生成新强度因数，其中增强系数大于1；若该情绪词前后预设范围内具有不同类别的情绪词，则每存在一个不同类别的情绪词，对该情绪词的强度因数乘一个第一衰减系数，生成新强度因数，其中，第一衰减系数介于0到1之间；

对于情绪词中的每一个，将该情绪词的新强度因数乘一个第二衰减系数作为该情绪词的前后预设范围内的非情绪词的强度因数，其中，第二衰减系数介于0到1之间，且距离该情绪词的词间距越大，所述第二衰减系数越大。

在一些实施例中，所述根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，包括：

将各类别的情绪词的新强度因数及各类别的情绪词前后预设范围内的非情绪词的强度因数的总和作为对应的维度的取值，进而将多个维度的取值整合为情绪向量。

在一些实施例中，还包括：

对于所述目标文本信息中的表情符号，根据表情符号的类别确定表情符号的强度因数；

所述根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，包括：

将各类别的情绪词的新强度因数和各类别的情绪词前后预设范围内的非情绪词的强度因数，以及对应类别表情符号的强度因数的总和作为对应的维度的取值，进而将多个维度的取值整合为情绪向量。

在一些实施例中，在所述确定所述目标文本信息中的情绪词和非情绪词之后，还包括：

判断所述有效词集合中的情绪词的密度是否大于预设阈值，若所述有效词集合中的情绪词的密度大于预设阈值，根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，若所述有效词集合中的情绪词的密度大于或等于预设阈值，则不生成情绪向量。

在一些实施例中，所述情绪识别模型由以下方法生成：

对于预设数量类别的情绪样本，由人工识别确定每类情绪样本的情绪精确分类，然后提取情绪样本的情绪向量，将情绪样本的情绪向量作为输入，将情绪精确分类的类别作为输出，对BP神经网络进行训练，直到神经网络根据输入的情绪样本的情绪向量识别出的情绪精确分类的类别与人工识别的类别吻合，完成对情绪识别模型的训练。

基于上述目的，在本申请的第二个方面，还提出了一种人工智能实现自然语言文本情绪识别装置，包括：

目标文本信息获取模块，用于获取目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息；

情绪词确定模块，用于确定所述目标文本信息中的情绪词和非情绪词；

情绪向量生成模块，用于根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量；

情绪向量识别模块，用于将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例一的人工智能实现自然语言文本情绪识别方法的流程图；

图2是本申请实施例二的人工智能实现自然语言文本情绪识别方法的流程图；

图3是本申请实施例三的人工智能实现自然语言文本情绪识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

具体地，如图1所示，是本申请实施例一的人工智能实现自然语言文本情绪识别方法的流程图。从图1中可以看出，作为本申请的一个实施例，所述人工智能实现自然语言文本情绪识别方法，可以包括以下步骤：

S101：获取目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息。

本申请实施例的人工智能实现自然语言文本情绪识别方法，可以应用于QQ、微信、电子邮件等网络和即时通信工具中，对交互过程中产生的自然语言文本中包含的用户的情绪因素进行识别。例如用户A和用户B在微信聊天中，可以通过用户B的自然语言文本来识别用户B的情绪，并在用户A的交互界面给予必要的提示。再例如，对于客户服务人工智能机器人来说，如果文本交互过程中识别出客户的情绪精确分类出现了急躁发怒的情绪，则可以及时发送安抚性语句、声音或者转接人工进行处理。当对自然语言文本中的情绪进行识别时，首先需要获取需要进行情绪识别的自然语言文本，即目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息。

S102：确定所述目标文本信息中的情绪词和非情绪词。

在本实施例中，当获取到目标文本信息后，由于目标文本信息中的有些词能体现用户的情绪(这些词为情绪词)，有些词则不能体现用户的情绪(这些词为非情绪词)。因此，需要对目标文本信息中的词进行区分，将目标文本信息中的词分为情绪词和非情绪词。具体地，例如可以预先建立与每一种常见情绪类别对应的情绪词库，例如，情绪类别可以包括高兴、悲伤、愤怒、焦急、感谢等类别；对应的情绪词库收录该情绪类别的支配下人们惯常采用的词语及网络用语，例如高兴类别对应的情绪词库可以收录“哈哈”、“爽”、“幸福”等词语作为情绪词；愤怒类别对应的情绪词库可以收集“来气”、“气死了”、“太气人”乃至某些不文明用语作为情绪词；对于悲伤类别的情绪词库可以收集“郁闷”、“大哭”、“不活了”等情绪词。然后通过将目标文本信息中的词逐一与预先建立的每一种常见情绪类别对应的情绪词库中的情绪词进行匹配，以此来对目标文本信息中的情绪词进行区分，将情绪词划分为多个类别，将剩余的词则确定为非情绪词，对于每一个非情绪词，将距离该非情绪词最近的情绪词所属的类别作为该非情绪词的类别。

S103：根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量。

在本实施例中，在预先建立的每一种常见情绪类别对应的情绪词库中的情绪词都可以对应一个强度因数，该强度因数表现情绪词所表达的情绪的强度，例如“微笑”和“大笑”表达的都是高兴的情绪，但是表达高兴的强烈程度是不同的。在确定了目标文本信息中的情绪词后，可以相应的确定情绪词的强度因数。而对于非情绪词，则可以根据其距离情绪词的词间距，在情绪词的强度因数的基础上乘一个衰减系数(该衰减系数介于0到1之间)，作为非情绪词的强度因数，进而，将同一类别的情绪词和非情绪词的强度因数进行求和，进而得到各类别的情绪词和非情绪词的强度因数之和，将强度因数之和作为与每个类别对应的维度的数值，进而将多个维度的数值整合为情绪向量。例如，某段文本信息中的悲伤类别的强度因数得分总和为85、愤怒类别的强度得分总和为71、高兴得分为0、焦急得分为55、感谢得分为6。可见，可以将该段文本信息转为一个N维的情绪向量，N个维度是每种情绪类别，每个维度上的向量取值是每种情绪类别的强度因数的总和。

S104：将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。

在本实施例中，为了对生成的情绪向量进行识别，可以预先建立多个情绪识别模型，每个情绪识别模型用于精确识别一类情绪，精确识别的情绪类别与目标文本信息中的情绪词的类别的不同之处在于，目标文本信息中的情绪词的类别只是简单的分类，例如上文中的高兴、悲伤、愤怒、焦急、感谢等类别，而精确识别的情绪类别则可以包括复杂的情绪类别，例如又急又怒，喜极而泣、且悲且喜等。所述情绪识别模型由以下方法生成：

通过所述情绪识别模型，可以识别出目标文本信息中的精确的情绪类别，进而可以应用于即时通讯或者各个领域服务当中的文本交互。

本申请实施例的人工智能实现自然语言文本情绪识别方法，能够对文本交互方式的交流和公共服务当中的自然语言文本的情绪因素进行识别。

如图2所示，是本申请实施例二的人工智能实现自然语言文本情绪识别方法的流程图。本实施例的人工智能实现自然语言文本情绪识别方法，可以包括一下步骤：

S201：获取目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息。

本申请实施例的人工智能实现自然语言文本情绪识别方法，可以应用于QQ、微信、电子邮件等网络和即时通信工具中，对交互过程中产生的自然语言文本中包含的用户的情绪因素进行识别。例如用户A和用户B在微信聊天中，可以通过用户B的自然语言文本来识别用户B的清晰，并在用户A的交互界面给予必要的提示。再例如，对于客户服务人工智能机器人来说，如果文本交互过程中识别出客户的情绪精确分类出现了急躁发怒的情绪，则可以及时发送安抚性语句、声音或者转接人工进行处理。当对自然语言文本中的情绪进行识别时，首先需要获取需要进行情绪识别的自然语言文本，即目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息。

S202：对所述目标文本信息进行切词和去停用词，生成有效词集合，并将所述有效词集合中的有效词按照在所述目标文本信息中的先后顺序进行排列。

在获取到目标文本信息后，可以对所述目标文本信息进行预处理，即先对所述目标文本信息进行切词，将所述目标文本信息切分为多个词组，然后取出掉多个词组中的停用词，剩下的即为有效词，由有效词共同构成有效词集合。然后，将有效词集合中的有效词按照在所述目标文本信息中的先后顺序进行排列。

S203：将所述目标文本信息中的有效词与预先建立的情绪词库中的情绪词进行比对，确定所述有效词中的情绪词，将情绪词以外的其他有效词确定为非情绪词。

S204：确定所述有效词中的情绪词中的情绪词的强度因数。

在确定了有效词中的情绪词和非情绪词后，可以进一步确定有效词中的情绪词中的情绪词的强度因数。

具体地，在预先建立的每一种常见情绪类别对应的情绪词库中的情绪词都可以对应一个强度因数，该强度因数表现情绪词所表达的情绪的强度，例如“微笑”和“大笑”表达的都是高兴的情绪，但是表达高兴的强烈程度是不同的。在确定了目标文本信息中的情绪词后，可以相应的确定情绪词的强度因数。

对于情绪词中的每一个，若该情绪词前后预设范围(例如情绪词前、后各5个单词的预设范围)内具有同类别的情绪词，则每存在一个同类别的其他情绪词，对该情绪词的强度因数乘一个增强系数，生成新强度因数，其中增强系数大于1；若该情绪词前后预设范围内具有不同类别的情绪词，则每存在一个不同类别的情绪词，对该情绪词的强度因数乘一个第一衰减系数，生成新强度因数，其中，第一衰减系数介于0到1之间。

将同一类别的情绪词和非情绪词的强度因数进行求和，进而得到各类别的情绪词和非情绪词的强度因数之和，将强度因数之和作为与每个类别对应的维度的数值，进而将多个维度的数值整合为情绪向量。例如，某段文本信息中的悲伤类别的强度因数得分总和为85、愤怒类别的强度得分总和为71、高兴得分为0、焦急得分为55、感谢得分为6。可见，可以将该段文本信息转为一个N维的情绪向量，N个维度是每种情绪类别，每个维度上的向量取值是每种情绪类别的强度因数的总和。

S205：将各类别的情绪词的新强度因数及各类别的情绪词前后预设范围内的非情绪词的强度因数的总和作为对应的维度的取值，进而将多个维度的取值整合为情绪向量。

S206：将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。

此外，作为本申请的一个可选实施例，对于存在表情符号的目标文本信息，可以根据表情符号的类别确定表情符号的强度因数。则在上述实施例中，根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，具体包括：

并且，在确定所述目标文本信息中的情绪词和非情绪词之后，还可以包括：判断所述有效词集合中的情绪词的密度是否大于预设阈值，若所述有效词集合中的情绪词的密度大于预设阈值，根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，若所述有效词集合中的情绪词的密度大于或等于预设阈值，则不生成情绪向量。

本实施例能够取得上述实施例相类似的技术效果，这里不再赘述。

如图3所示，是本申请实施例三的人工智能实现自然语言文本情绪识别装置的结构示意图。本实施例的人工智能实现自然语言文本情绪识别装置，包括：

目标文本信息获取模块301，用于获取目标文本信息，所述目标文本信息为即时通讯工具中的文本交互信息。

本申请实施例的人工智能实现自然语言文本情绪识别装置，可以应用于QQ、微信、电子邮件等网络和即时通信工具中，对交互过程中产生的自然语言文本中包含的用户的情绪因素进行识别。例如用户A和用户B在微信聊天中，可以通过用户B的自然语言文本来识别用户B的清晰，并在用户A的交互界面给予必要的提示。再例如，对于客户服务人工智能机器人来说，如果文本交互过程中识别出客户的情绪精确分类出现了急躁发怒的情绪，则可以及时发送安抚性语句、声音或者转接人工进行处理。当对自然语言文本中的情绪进行识别时，首先需要获取需要进行情绪识别的自然语言文本，即目标文本信息，所述目标文本信息为即时通讯工具和/或网络中的文本交互信息。

情绪词确定模块302，用于确定所述目标文本信息中的情绪词和非情绪词。

具体地，当获取到目标文本信息后，由于目标文本信息中的有些词能体现用户的情绪(这些词为情绪词)，有些词则不能体现用户的情绪(这些词为非情绪词)。因此，需要对目标文本信息中的词进行区分，将目标文本信息中的词分为情绪词和非情绪词。具体地，例如可以预先建立与每一种常见情绪类别对应的情绪词库，例如，情绪类别可以包括高兴、悲伤、愤怒、焦急、感谢等类别；对应的情绪词库收录该情绪类别的支配下人们惯常采用的词语及网络用语，例如高兴类别对应的情绪词库可以收录“哈哈”、“爽”、“幸福”等词语作为情绪词；愤怒类别对应的情绪词库可以收集“来气”、“气死了”、“太气人”乃至某些不文明用语作为情绪词；对于悲伤类别的情绪词库可以收集“郁闷”、“大哭”、“不活了”等情绪词。然后通过将目标文本信息中的词逐一与预先建立的每一种常见情绪类别对应的情绪词库中的情绪词进行匹配，以此来对目标文本信息中的情绪词进行区分，将情绪词划分为多个类别，将剩余的词则确定为非情绪词，对于每一个非情绪词，将距离该非情绪词最近的情绪词所属的类别作为该非情绪词的类别。

情绪向量生成模块303，用于根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量。

具体地，在预先建立的每一种常见情绪类别对应的情绪词库中的情绪词都可以对应一个强度因数，该强度因数表现情绪词所表达的情绪的强度，例如“微笑”和“大笑”表达的都是高兴的情绪，但是表达高兴的强烈程度是不同的。在确定了目标文本信息中的情绪词后，可以相应的确定情绪词的强度因数。而对于非情绪词，则可以根据其距离情绪词的词间距，在情绪词的强度因数的基础上乘一个衰减系数(该衰减系数介于0到1之间)，作为非情绪词的强度因数，进而，将同一类别的情绪词和非情绪词的强度因数进行求和，进而得到各类别的情绪词和非情绪词的强度因数之和，将强度因数之和作为与每个类别对应的维度的数值，进而将多个维度的数值整合为情绪向量。例如，某段文本信息中的悲伤类别的强度因数得分总和为85、愤怒类别的强度得分总和为71、高兴得分为0、焦急得分为55、感谢得分为6。可见，可以将该段文本信息转为一个N维的情绪向量，N个维度是每种情绪类别，每个维度上的向量取值是每种情绪类别的强度因数的总和。

情绪向量识别模块304，用于将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果。

具体地，为了对生成的情绪向量进行识别，可以预先建立多个情绪识别模型，每个情绪识别模型用于精确识别一类情绪，精确识别的情绪类别与目标文本信息中的情绪词的类别的不同之处在于，目标文本信息中的情绪词的类别只是简单的分类，例如上文中的高兴、悲伤、愤怒、焦急、感谢等类别，而精确识别的情绪类别则可以包括复杂的情绪类别，例如又急又怒，喜极而泣、且悲且喜等。所述情绪识别模型由以下方法生成：

本申请实施例的人工智能实现自然语言文本情绪识别装置，能够对文本交互方式的交流和公共服务当中的自然语言文本的情绪因素进行识别。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人工智能实现自然语言文本情绪识别方法，其特征在于，包括：

确定所述目标文本信息中的情绪词和非情绪词；

根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，其中，对于情绪词中的每一个，若该情绪词前后预设范围内具有同类别的情绪词，则每存在一个同类别的其他情绪词，对该情绪词的强度因数乘一个增强系数，生成新强度因数，其中增强系数大于1；若该情绪词前后预设范围内具有不同类别的情绪词，则每存在一个不同类别的情绪词，对该情绪词的强度因数乘一个第一衰减系数，生成新强度因数，其中，第一衰减系数介于0到1之间；对于情绪词中的每一个，将该情绪词的新强度因数乘一个第二衰减系数作为该情绪词的前后预设范围内的非情绪词的强度因数，其中，第二衰减系数介于0到1之间，且距离该情绪词的词间距越大，所述第二衰减系数越大；

将所述情绪向量输入预先训练的情绪识别模型，输出与所述情绪向量对应的情绪识别结果，其中，建立若干所述情绪识别模型，每个所述情绪识别模型用于精确识别一类情绪，精确识别的情绪类型包括复杂的情绪类别，所述情绪识别模型由以下方法生成：

对于预设数量类别的情绪样本，由人工识别确定每类情绪样本的情绪精确分类，然后提取情绪样本的情绪向量，将情绪样本的情绪向量作为输入，将情绪精确分类的类别作为输出，对BP神经网络进行训练，直到神经网络根据输入的情绪样本的情绪向量识别出的情绪精确分类的类别与人工识别的类别吻合，完成对情绪识别模型的训练；

另外，在所述确定所述目标文本信息中的情绪词和非情绪词之后，还包括：

判断有效词集合中的情绪词的密度是否大于预设阈值，若所述有效词集合中的情绪词的密度大于预设阈值，根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，若所述有效词集合中的情绪词的密度大于或等于预设阈值，则不生成情绪向量。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述目标文本信息中的情绪词和非情绪词，包括：

4.根据权利要求3所述的方法，其特征在于，所述预先建立的情绪词库中情绪词还对应有强度因数，在确定所述有效词中的情绪词后，还包括：

确定所述所述有效词中的情绪词的强度因数。

5.根据权利要求1所述的方法，其特征在于，所述根据各类别的所述情绪词和所述非情绪词的强度因数生成情绪向量，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种人工智能实现自然语言文本情绪识别装置，其用于实现权利要求1-6项任一所述的方法。