CN109472207B

CN109472207B - 情绪识别方法、装置、设备及存储介质

Info

Publication number: CN109472207B
Application number: CN201811184355.5A
Authority: CN
Inventors: 查月阅; 陶进芳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-06-30
Anticipated expiration: 2038-10-11
Also published as: CN109472207A

Abstract

本发明涉及计算机技术领域，提供了一种情绪识别方法、装置、设备及存储介质，所述情绪识别方法包括：对音频数据进行数据转换处理，得到音频文字信息和语速信息；从视频图像数据中提取切分图像数据；按照预设的选取方式，在每个切分图像数据中选取一帧图像进行图像预处理，得到二值化图像；分别对每个音频文字信息和每个语速信息进行情绪分析，确定每个音频文字信息对应的情绪名词；对每个二值化图像进行情绪识别，确定每个二值化图像对应的情绪标签；将情绪名词和情绪标签进行汇总，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定源文件对应的情绪识别结果。本发明能够提高情绪识别准确度。

Description

情绪识别方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种情绪识别方法、装置、设备及存储介质。

背景技术

随着机器学习与人工智能，以及人类行为学研究的发展，人们对人类情绪表达的研究越发重视。传统技术进行人物情绪识别，一是通过训练卷积神经网络模型，并使用训练好的模型实现对图像中的人脸情绪的识别，但搭建模型的运算量大，计算周期长，成本高，从而导致识别效率不高，且仅能进行图像的人物情绪识别；或是通过将视频数据或音频数据直接翻译成文字数据，并对文字数据进行特征提取，通过分析特征实现情绪识别，而翻译的过程中易出现误差，易造成特征提取不准，从而导致人物情绪识别准确度降低。

发明内容

本发明实施例提供一种情绪识别方法、装置、设备及存储介质，以解决传统情绪识别技术存在的人物情绪识别准确度不高的问题。

一种情绪识别方法，包括：

获取源文件，其中，所述源文件包括音频数据，以及与所述音频数据相对应的视频图像数据；

对所述音频数据进行数据转换处理，得到N个音频文字信息和每个所述音频文字信息对应的语速信息，其中，N为大于等于1的正整数，每个所述音频文字信息对应一个文字时间段；

从所述视频图像数据中提取每个所述文字时间段对应的切分图像数据；

按照预设的选取方式，在每个所述切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像；

分别对每个所述音频文字信息和每个所述音频文字信息对应的语速信息进行情绪分析，并根据所述音频文字信息对应的情绪分析结果和所述语速信息对应的情绪分析结果的合集，确定每个所述音频文字信息对应的情绪名词，得到N个所述情绪名词；

对每个所述二值化图像进行情绪识别，确定每个所述二值化图像对应的情绪标签，得到N个所述情绪标签；

将N个所述情绪名词和N个所述情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定所述源文件对应的情绪类型和所述情绪类型的分数，并将确定的所述情绪类型和所述分数作为所述源文件对应的情绪识别结果。

一种情绪识别装置，包括：

数据获取模块，用于获取源文件，其中，所述源文件包括音频数据，以及与所述音频数据相对应的视频图像数据；

数据处理模块，用于对所述音频数据进行数据转换处理，得到N个音频文字信息和每个所述音频文字信息对应的语速信息，其中，N为大于等于1的正整数，每个所述音频文字信息对应一个文字时间段；

图像提取模块，用于从所述视频图像数据中提取每个所述文字时间段对应的切分图像数据；

图像处理模块，用于按照预设的选取方式，在每个所述切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像；

情绪分析模块，用于分别对每个所述音频文字信息和每个所述音频文字信息对应的语速信息进行情绪分析，并根据所述音频文字信息对应的情绪分析结果和所述语速信息对应的情绪分析结果的合集，确定每个所述音频文字信息对应的情绪名词，得到N个所述情绪名词；

情绪识别模块，用于对每个所述二值化图像进行情绪识别，确定每个所述二值化图像对应的情绪标签，得到N个所述情绪标签；

结果获取模块，用于将N个所述情绪名词和N个所述情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定所述源文件对应的情绪类型和所述情绪类型的分数，并将确定的所述情绪类型和所述分数作为所述源文件对应的情绪识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述情绪识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述情绪识别方法的步骤。

上述情绪识别方法、装置、设备及存储介质，通过对源文件中的音频数据进行数据转换处理，得到音频文字信息和语速信息，然后，在音频数据的数据转换处理的基础上，将与音频数据相对应的视频图像数据进行图像预处理，得到二值化图像，进而，分别对音频文字信息和语速信息进行情绪分析得到N个情绪名词，同时，对二值化图像进行图像情绪识别，得到N个情绪标签，能够有针对性的分析出源文件中不同数据类别下对应的情绪，以及能够保证对情绪识别的全面性和完整性，从而提高对情绪识别的准确度，然后，将情绪名词和情绪标签进行汇总分析，最终得到源文件对应的情绪识别信息，这种分别从音频和视频两个维度对数据进行分类识别处理，并在分类识别的基础上，再对分类识别的结果进行汇总分析的方法，能够提高人物情绪识别的精度且该方法操作简便，运算量小，能够提高情绪识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中情绪识别方法的一应用环境示意图；

图2是本发明一实施例中情绪识别方法的一流程图；

图3是本发明一实施例中情绪识别方法中步骤S2的实现流程图；

图4是本发明一实施例中情绪识别方法中步骤S4的实现流程图；

图5是本发明一实施例中情绪识别方法中步骤S5的实现流程图；

图6是本发明一实施例中情绪识别方法中步骤S6的实现流程图；

图7是本发明一实施例中情绪识别方法中进行疾病预防提示的一实现流程图；

图8是本发明一实施例中情绪识别装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于上传源文件，并且将源文件发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于处理源文件中的数据，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的情绪识别方法应用于服务端。

请参阅图2，图2示出本实施例提供的情绪识别方法的实现流程。详述如下：

S1：获取源文件，其中，源文件包括音频数据，以及与音频数据相对应的视频图像数据。

具体地，获取源文件的方式具体可以是手动导入或者自动定时从本地数据库中获取，或者自动定时从第三方视频数据库中爬取等，还可以是其他获取方式，此处不做限制，其中，第三方视频库具体可以是网络视频平台的数据库。

其中，手动导入源文件，并读取源文件中的内容具体可以是通过接收客户端的用户输入的文件地址，从该文件地址中获取存储的源文件中的音频数据，以及与音频数据相对应的视频图像数据。

其中，自动定时从本地数据库中获取源文件具体可以是启动定时获取任务获取源文件，其中，定时获取任务具体可以是按照预设的时间间隔进行读取。优选地，时间间隔可以设置为20分钟、10分钟或5分钟，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不做限制。

具体地，启动源文件定时获取任务，间隔预定的时间间隔自动从本地数据库中读取源文件中的音频数据，以及与音频数据相对应的视频图像数据。

其中，自动定时从第三方视频库中爬取，并读取源文件中的内容具体可以是通过网络爬取(Web Crawler)，依次爬取网络视频平台中每个视频网站，来获取所有视频网站中音频数据，以及与音频数据相对应的视频图像数据。

其中，网络爬取是指爬行对象从一些种子URL(Uniform Resource Locator，统一资源定位符)扩充到整个Web(World Wide Web，全球广域网)，主要为门户站点搜索引擎和大型Web服务提供商采集数据。网络爬取的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，网络爬取的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬取会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

其中，深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。

其中，广度优先策略是按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点。

优选地，本实施例采用的爬行策略为广度优先策略。

具体地，通过网络爬取，依次爬取网络视频平台中每个视频网站，来获取该视频网站中的源文件包含的音频数据，以及与音频数据相对应的视频图像数据具体可以是先获取预设的待爬取的网站域名，然后使用用于网站解析工具，如Python(面向对象的解释型)程序中的BeautifulSoup工具，对待爬取的网站域名对应的内容进行解析，若在解析出的内容中包含源文件对应的关键字，就获取这个url的内容并保存为源文件中的音频数据，以及与音频数据相对应的视频图像数据。

S2：对音频数据进行数据转换处理，得到N个音频文字信息和每个音频文字信息对应的语速信息，其中，N为大于等于1的正整数，每个音频文字信息对应一个文字时间段。

在本实施例中，音频文字信息是指在对应的文字时间段中包含的所有文字，语速信息是指在对应的文字时间段中用户说话的平均速度。

具体地，对音频数据进行数据转换处理的具体处理方式可以是将音频数据输入预先采用数学编程软件MATLAB R2016a构造好的语音信号模型中，能够提取音频数据中的语音信号，并对提取到的语音信号进行数据分析，输出语音信号对应的音频文字信息和每个音频文字信息对应的语速信息，以及每个音频文字信息对应的文字时间段，每个文字时间段包括时间起始点和时间终止点。

例如，假设对音频数据进行数据转换处理后，得到的4个音频文字信息，每个音频文字信息对应的文字时间段分别是“0:00:00.000-0:01:03.224”、“0:02:03.224-0:03:15.224”、“0:05:16.225-0:07:26.225”和“0:08:26.225-0:09:24.336”，其中，文字时间段“0:00:00.000-0:01:03.224”的起始时间点为“0:00:00.000”和终止时间点为“0:01:03.224”，文字时间段“0:02:03.224-0:03:15.224”的起始时间点为“0:02:03.224”和终止时间点为“0:03:15.224”，文字时间段“0:05:16.225-0:07:26.225”的起始时间点为“0:05:16.225”和终止时间点为“0:07:26.225”，以及文字时间段“0:08:26.225-0:09:24.336”的起始时间点为“0:08:26.225”和终止时间点为“0:09:24.336”。

S3：从视频图像数据中提取每个文字时间段对应的切分图像数据。

具体地，从视频图像数据中提取每个文字时间段对应的切分图像数据，具体可以是将每个文字时间段包括时间起始点和时间终止点作为切分图像数据的切点，用于剪切视频图像数据，得到每个文字时间段对应的切分图像数据。

例如，继续使用步骤S2中的例子，按照时间的先后顺序，将每个文字时间段包括时间起始点和时间终止点为切分数据的切点，将视频图像数据进行切分，如在文字时间段“0:00:00.000-0:01:03.224”中，将“0:01:03.224”作为切分图像数据的一个切点，用于剪切视频图像数据，得到文字时间段“0:00:00.000-0:01:03.224”对应的切分图像数据，同理，在文字时间段“0:02:03.224-0:03:15.224”中，将“0:02:03.224”和“0:03:15.224”作为切分数据的一个切点，能够得到文字时间段“0:02:03.224-0:03:15.224”对应的切分图像数据，以此类推，能够从视频图像数据中提取每个文字时间段对应的切分图像数据。

S4：按照预设的选取方式，在每个切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像。

在本实施例中，选取方式具体可以是特定选取、随机选取，或者是其他选取方式，此处不做限制。

其中，特定选取是在每个切分图像数据中均提取切分图像数据中的固定的某一帧图像，如“固定提取每个切分图像数据中的第三帧图像”。随机选取是在每个切分图像数据中随机任意提取一帧图像，如“在第一个切分图像数据中选取了第五帧图像”，或者“在第三个切分图像数据中选取了第七帧图像”等。

优选地，本实施例采用的选取方式是随机选取。

具体地，在每个切分图像数据中随机选取一帧图像进行图像处理，得到N个二值化图像具体可以是对选取到的每帧图像，分别通过人工神经网络模型进行图像归一化和二值化处理，然后将输出的图像作为二值化图像，还可以通过其他方式对选取到的每帧图像进行图像预处理得到二值化图像，此处不做限制。

S5：分别对每个音频文字信息和每个音频文字信息对应的语速信息进行情绪分析，并根据音频文字信息对应的情绪分析结果和语速信息对应的情绪分析结果的合集，确定每个音频文字信息对应的情绪名词，得到N个情绪名词。

具体地，对每个音频文字信息中的文字进行汇总，并按照预设的情绪词库中包含情绪相关的词语，对汇总的文字进行词语的提取，得到多个情绪词，同时，将每个音频文字信息对应的语速信息进行累加求和，并计算平均值，然后，在预设的情绪词库中，每个预设的语速信息阈值范围都有与之对应的情绪词，故能够获取计算得到的语速信息的平均值属于的语速信息阈值范围对应的情绪词，并将提取到的情绪词和获取到的语速信息的平均值对应的情绪词进行合并，得到情绪分析结果的合集，并将该合集中的情绪词作为每个音频文字信息对应的N个情绪名词。

S6：对每个二值化图像进行情绪识别，确定每个二值化图像对应的情绪标签，得到N个情绪标签。

在本实施例中，对每个二值化图像进行情绪识别的方式具体可以是分别将利用SVM分类器或者其他机器学习算法，对在步骤S4中提取到的二值化图像进行二值化图像的特征向量的提取，并对提取到的特征向量进行分类，得到特征向量对应的情绪类型，并将该情绪类型作为每个二值化图像对应的情绪标签，得到N个情绪标签。

S7：将N个情绪名词和N个情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定源文件对应的情绪类型和情绪类型的分数，并将确定的情绪类型和分数作为源文件的情绪识别结果。

需要说明的是，情绪类型包括“喜”、“怒”、“忧”、“思”、“恐”和“惊”等。

在本实施例中，将N个情绪名词和N个情绪标签进行汇总，按照预设的统计方式进行数据统计的方法是基于集成学习方法上扩展得到的，可以理解为结合多个维度的分析结果来完成学习任务，即将每个维度分析看作一个“个体学习器”，通过先产生一组“个体学习器”，再使用某种策略将这些“个体学习器”的结果进行结合，来完成学习任务，其中，使用的策略可以理解为预设的统计方式，主要包括累加法、平均法和投票法等。

其中，采用累加法统计属于同一情绪类型的情绪名词和情绪标签的数量时，由于情绪名词和情绪标签都是表示情绪类型的词语，所以从合并后的情绪名词和情绪标签统计出相同的词语，以及这些相同的词语的数量，即统计属于同一情绪类型的情绪名词和情绪标签的数量，按照词语数量的占比，可以统计出包含情绪名词和情绪标签的数量最多的情绪类型，可以直观反映出源文件中出现频率最高的情绪类型，因此，可以将包含情绪名词和情绪标签的数量最多的情绪类型确定为源文件对应的情绪类型，将该情绪类型的数量确定为该情绪类型的数量的分数，并将确定的情绪类型和分数作为源文件的情绪识别结果。

例如，假设统计得到属于“喜”的情绪名词和情绪标签的数量为10，属于“怒”的情绪名词和情绪标签的数量为8，属于“恐”的情绪名词和情绪标签的数量为1，按照数量的多少，能够直接得到包含情绪名词和情绪标签的数量最多的情绪类型是“喜”，因此，将“喜”确定为源文件对应的情绪类型，将该情绪类型的数量“8”确定为该情绪类型的数量的分数，并将确定的情绪类型和分数作为情绪识别结果。

其中，加权投票法可以理解为，假设是对于任意一个样本数据x，使用T中维度的分析结果分别是(h₁(x),h₂(x)...h_T(x))。若在T种维度下的对样本数据x的分析结果中，对每种样本类型进行投票，得到投票分数最多的样本类型为唯一时，则将投票分数最多的样本类型确定为最终的学习任务的结果。若在T种维度下的对样本数据x的分析结果中，对每种样本类型进行投票，得到投票分数最多的样本类型不唯一时，则将每个样本类型的投票分数乘以一个预设的权重，并对各个类别的加权票数进行求和，将数值最大的加权票的和，对应的类别确定为最终类别。

优选地，本实施例采用的是加权投票法。

具体地，将步骤S5中得到的N个情绪名词和步骤S6中得到的N个情绪标签进行合并，得到包含多种情绪类型的情绪词汇集合，然后，对集合中的每种情绪类型进行投票，如有一情绪类型“喜”，假设在得到的情绪词汇集合中查找到属于情绪类型“喜”的情绪名词或情绪标签，查找到一个记为投票一分，然后，输出每种情绪类型的投票分数，若得到投票分数最高的情绪类型为唯一时，则将投票分数最高的情绪类型和该情绪类型的的投票分数作为源文件的情绪识别结果；若得到投票分数最高的情绪类型不唯一时，则按照预设的情绪权重值，将投票分数最高的情绪类型中的每个情绪类型的投票分数乘以该情绪类型预设的情绪权重值，得到该情绪类型的加权投票分数，并将加权投票分数最高的的情绪类型确定为源文件对应的情绪类型，将该情绪类型的加权投票分数确定为该情绪类型的数量的分数，并将确定的情绪类型和分数情绪识别结果，其中，预设的情绪权重值具体可以是按照情绪类型在日常生活中通常的出现频率进行设置，此处不做限制。

在本实施例中，通过对源文件中的音频数据进行数据转换处理，得到音频文字信息和语速信息，然后，在音频数据的数据转换处理的基础上，将与音频数据相对应的视频图像数据进行图像预处理，得到二值化图像，进而，分别对音频文字信息和语速信息进行情绪分析得到N个情绪名词，同时，对二值化图像进行图像情绪识别，得到N个情绪标签，能够有针对性的分析出源文件中不同数据类别下对应的情绪，以及能够保证对情绪识别的全面性和完整性，从而提高对情绪识别的准确度，然后，将情绪名词和情绪标签进行汇总分析，最终得到源文件对应的情绪识别信息，这种分别从音频和视频两个维度对数据进行分类识别处理，并在分类识别的基础上，再对分类识别的结果进行汇总分析的方法，能够提高人物情绪识别的精度且该方法操作简便，运算量小，能够提高情绪识别的效率。

在一实施例中，如图3所示，步骤S2中，即对音频数据进行数据转换处理，得到N个音频文字信息和每个音频文字信息对应的语速信息具体包括如下步骤：

S201：对音频数据进行解码分析，得到音频数据对应的文字和每个文字对应的时间点。

在本实施例中，对音频数据进行解码分析的方式，具体可以是将音频数据输入具有语音文字转换功能的软件中，这类软件可以将音频数据转换成用户所需的语言文字类型对应的文字，其中，语言文字类型包括中文、英文、日文、韩文和阿拉伯语等。

优选地，本实施例采用的语言类型为中文。

具体地，将音频数据输入具有语音文字转换功能的软件中进行解码，按照用户输入的文字转换操作，将音频数据翻译成音频数据对应的文字，并输出每个文字对应的时间点，其中，每个文字时间点是一一对应的关系。

例如，假设一个音频数据的总时长为“1:24:28.123”，该音频数据翻译的文字中包括“我”、“的”、“名”和“字”等，这些文字对应的时间点分别如文字“我”对应的时间点为“0:02:03.221”，文字“的”对应的时间点为“0:11:16.224”，文字“名”对应的时间点为“0:35:26.225”，以及文字“字”对应的时间点为“1:21:24.336”。

需要说明的是，为了便于用户查看，用户还可以语音文字转换功能的软件中，将转换得到的文字进行格式设置，文字格式设置具体可以包括但不限于文字的字体、大小和行间距等，此处不做限制。

S202：按照时间点的先后顺序，计算每两个相邻的时间点之间的差值，若差值大于或等于预设的静音阈值，则将差值对应的两个相邻的时间点分别确定为静音时间戳的静音起始点和静音终止点。

在本实施例中，静音时间戳是指用户在说话时停顿的时间长度和具体时间点。

具体地，静音时间戳的具体计算可以按照时间点的先后顺序，通过计算每两个相邻时间点的差值，若该差值大于或等于预设的静音阈值，则将该差值对应的两个相邻时间点，标记为一组静音时间戳。

例如，假设预设的静音阈值为2s，有两个相邻时间点分别为t₁₁“0:11:24.221”和t₁₂“0:11:27.221”，计算这两个相邻时间点的差值，即“0:11:27.221”减去“0:11:24.221”得到的差值为3s，该差值大于预设的静音阈值，则将这两个相邻时间点标记为静音时间戳的静音起始点和静音终止点，即“0:11:24.221”标记为静音时间戳的静音起始点，“0:11:27.221”标记为静音时间戳的静音终止点。

S203：在每两个相邻静音时间戳中，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，得到的差作为文字时间段，并将前一个静音时间戳的静音终止点作为文字时间段的时间起始点，将后一个静音时间戳的静音起始点作为文字时间段的时间终止点。

在本实施例中，文字时间段是指用户在说话状态的时间长度和具体时间点。

具体地，文字时间段的具体计算可以按照时间点的先后顺序，通过计算每两个相邻静音时间戳的差值，将该差值用于表示文字时间段的时间长度，并将将前一个静音时间戳的静音终止点作为文字时间段的时间起始点，将后一个静音时间戳的静音起始点作为文字时间段的时间终止点，便于后续计算音频文字信息对应的语速信息。

例如，继续使用步骤S202中的例子，假设在每两个相邻静音时间戳中，前一个静音时间戳为步骤202中的例子，后一个静音时间戳是通过时间点t₂₁“0:12:27.221”和时间点t₂₂“0:11:31.221”计算得到的，即后一个静音时间戳的静音起始点为“0:12:27.221”，静音终止点为“0:11:31.221”，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，即t₂₁-t₁₂得到60s的差值，并将前一个静音时间戳的静音终止点作为文字时间段的时间起始点，将后一个静音时间戳的静音起始点作为文字时间段的时间终止点，即文字时间段为“0:11:27.221-0:12:27.221”。

S204：将每个文字时间段中的文字，作为文字时间段对应的音频文字信息。

具体地，根据步骤S203中得到的文字时间段，获取该文字时间段中的每个时间点对应的文字，按照时间点的先后顺序罗列，得到该文字时间段对应的音频文字信息。

例如，假设一个文字时间段为“0:11:27.221-0:11:37.221”中包括的时间点和时间点对应的文字分别是时间点“0:11:27.221”对应的文字是“我”，时间点“0:11:27.221”对应的文字是“我”，时间点“0:11:29.216”对应的文字是“今”，时间点“0:11:31.112”对应的文字是“天”，时间点“0:11:33.019”对应的文字是“很”，时间点“0:11:35.134”对应的文字是“难”，时间点“0:11:77.221”对应的文字是“过”，按照时间点的先后顺序罗列，得到的文字时间段对应的音频文字信息为“我今天很难过”。

S205：统计每个音频文字信息中包含的文字的数量，并将音频文字信息中包含的文字的数量与音频文字信息对应的文字时间段之间的商，作为音频文字信息对应的语速信息。

具体地，统计每个音频文字信息中包含的文字的数量M，将音频文字信息对应的文字时间段的时间终止点减去时间起始点得到时间间隔Δt，按照公式(1)计算该时间间隔对应的语速v，并将v作为音频文字信息对应的语速信息：

例如，继续使用步骤S204中的例子，将步骤S204中的音频文字信息对应的文字时间段的时间终止点减去时间起始点得到的时间间隔Δt为10s，且统计到的文字总数M为6个，将音频文字信息中包含的文字的数量与音频文字信息对应的文字时间段的数据代入公式(1)中，计算得到该音频文字信息对应的语速信息v为每秒0.6个字。

在本实施例中，通过对音频数据进行解码分析，得到音频数据对应的文字和每个文字对应的时间点，按照时间点的先后顺序，计算每两个相邻的时间点之间的差值，并将满足预设的静音阈值要求的差值对应的两个相邻的时间点分别确定为静音时间戳的静音起始点和静音终止点，得到静音时间戳能够便于后续步骤中快速提取出有分析意义的音频文字信息对应的文字时间段，然后，在每两个相邻静音时间戳中，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，得到的差作为文字时间段，并将每个文字时间段中的文字，作为文字时间段对应的音频文字信息，能够保证得到的文字具有分析意义，表示用户是说话并表达情绪的状态，同时，统计每个音频文字信息中包含的文字的数量，并将音频文字信息中包含的文字的数量与音频文字信息对应的文字时间段之间的商，作为音频文字信息对应的语速信息，由于语速信息也具备情绪的表达，所以得到音频文字信息对应的语速信息，能够进一步的保证对情绪识别的准确率的提高。

在一实施例中，如图4所示，步骤S4中，即按照预设的选取方式，在每个切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像具体包括如下步骤：

S401：针对每个切分图像数据，在切分图像数据中随机提取一帧图像进行灰度化处理，得到每个切分图像数据对应的灰化图像。

具体地，根据步骤S3中的得到切分图像数据，在每个切分图像数据中随机提取一帧图像进行灰度化处理，得到灰化图像，具体可以是通过获取每个图像中每个像素点的RGB分量值，使得图像灰度化，即可以通过公式g(x，y)＝k1*R(x，y)+k2*G(x，y)+k3*B(x，y)对每个提取到的图像的每个像素点的RGB分量值。其中，x和y表示每个提取到的图像中每个像素点的横坐标和纵坐标，g(x，y)表示像素点(x，y)灰度化处理后的灰度值，R(x，y)表示像素点(x，y)的R通道的颜色分量，G(x，y)表示像素点(x，y)的G通道的颜色分量，B(x，y)表示像素点(x，y)的B通道的颜色分量，k1，k2，k3分别为R通道，G通道，B通道对应的占比参数，并且k1+k2+k3＝1，其具体取值可以根据实际应用中的每个提取到的图像进行设置。

例如，假设一个提取到的图像中像素的亮度信息主要分布在B通道，则k3的取值大于k1和k2，比如，k1＝0，k2＝0，k3＝1。

S402：对每个灰化图像进行二值化处理，得到N个二值化图像。

具体地，对每个灰化图像进行二值化处理具体可以通过扫描灰度化处理后的灰化图像中的每个像素点，若该像素点的像素值小于预设的像素阈值，则将该像素点的像素值设为0，若该像素点的像素值大于等于预设值的像素阈值，则将该像素点的像素值设为255，将设置好的每个像素点的像素值的图像作为二值化图像。

在本实施例中，针对每个切分图像数据，在切分图像数据中随机提取一帧图像进行灰度化处理，得到每个切分图像数据对应的灰化图像；对每个灰化图像进行二值化处理，得到N个二值化图像，通过二值化处理使得二值化图像中只呈现黑色和白色两种颜色，能够有效降低后续对二值化图像的特征提取和情绪识别的计算复杂度，提高执行效率。

在一实施例中，如图5所示，步骤S5中，即分别对每个音频文字信息和每个音频文字信息对应的语速信息进行情绪分析，并根据音频文字信息对应的情绪分析结果和语速信息对应的情绪分析结果的合集，确定每个音频文字信息对应的情绪名词，得到N个情绪名词具体包括如下步骤：

S501：对每个音频文字信息进行分词处理，得到每个音频文字信息对应的文字单词。

在本实施例中，对每个音频文字信息进行分词处理具体可以是采用IK分词算法，即正向迭代最细粒度切分算法，还可以采用其他分词方法，具体可以根据实际应用需求进行选定，此处不做限制。

具体地，将步骤S2中得到的每个音频文字信息去除停词，再将去除停词后的音频文字信息拆分成独立的单词，并将得到的独立的单词作为每个音频文字信息对应的文字单词，其中，停词是中文常用停词，例如，“一一”、“一下”、“万一”和“下去”等，有利于保证分词处理得到的单词是单独、有意义和完整的一个词。对每个音频文字信息进行分词处理，以便于后续在分词处理中得到的文字单词中，快速选出与情绪相关的情绪词。

例如，继续使用步骤S204中的例子，对得到的音频文字信息“我今天很难过”做分词处理，将音频文字信息去除停词，得到去除停词后的音频文字信息依然是“我今天很难过”，然后，将“我今天很难过”按照正向迭代最细粒度切分算法进行拆分，得到“我/今天/很/难过”，作为该音频文字信息对应的文字单词。

S502：根据预设的情绪单词，将每个音频文字信息对应的文字单词与情绪单词进行匹配，并将匹配成功的文字单词确定为音频文字信息对应的文字情绪词。

在本实施例中，预设的情绪词库中定义了与多个与情绪相关的情绪单词，以及每个情绪单词对应的近义词集合，如“喜”的近义词集合包括“开心”、“高兴”、“愉悦”等，“忧”的近义词集合包括“伤感”、“焦虑”、“难过”等，该情绪词库还包括与情绪词相对应的情绪阈值范围。

具体地，在预设的情绪词库中进行遍历，当查找到与文字单词相同的情绪单词，或者情绪单词对应的近义词集合中有与文字单词相同的词语，则该文字单词匹配成功，并将该文字单词确定为音频文字信息对应的文字情绪词。

例如，继续使用步骤S502中的例子，音频文字信息“我今天很难过”做分词处理，得到的文字单词为“我/今天/很/难过”，可以在预设的情绪词库中进行遍历，当查找到文字单词中有属于与情绪单词，或者与情绪单词对应的近义词集合，如“难过”属于情绪单词“忧”的近义词集合，则可以将“难过”确定为音频文字信息对应的文字情绪词。

S503：根据情绪阈值范围与情绪词之间预设的对应关系，获取每个语速信息属于的情绪阈值范围对应的情绪词，并将获取到的情绪词作为语速信息对应的语速情绪词。

在本实施例中，由于经试验证明在180～200字/分的属于正常语速，即3～4字/秒，表示内心情绪平缓，而情绪词库中包含了与情绪单词相对应的情绪阈值范围，所以可以得到情绪阈值范围与情绪词之间预设的对应关系，如情绪阈值范围为“3～4字/秒”对应的情绪词为悠闲、平静或轻松等，情绪阈值范围为“大于或等于5字/秒”对应的情绪词为激动、紧张或焦虑等，情绪阈值范围为“小于或等于2字/秒”对应的情绪词为悲伤、迷茫或失落等，此处不做限制。

具体地，将步骤S2中得到的语速信息与预设的情绪阈值范围进行比较，得到步骤S2中得到的语速信息属于的情绪阈值范围，然后，根据情绪阈值范围与情绪词之间预设的对应关系，获取情绪词库中与情绪阈值范围对应的情绪词，并将该情绪词作为语速信息对应的语速情绪词。

例如，继续是有步骤S205中的例子，得到的音频文字信息“我今天很难过”所对应的语速信息为0.6字/秒，假设预设的情绪阈值范围包括“3～4字/秒”、“大于或等于5字/秒”和“小于或等于2字/秒”，将语速信息与预设的情绪阈值范围进行比较，得到语速信息为0.6字/秒属于情绪阈值范围“小于或等于2字/秒”，然后，根据情绪阈值范围为“小于或等于2字/秒”对应的情绪词为悲伤、迷茫或失落等，故将“悲伤”、“迷茫”、“失落”作为语速信息对应的语速情绪词。

S504：统计每个音频文字信息对应的文字情绪词和每个音频文字信息对应的语速信息所对应的语速情绪词中，属于同一情绪类型的文字情绪词和语速情绪词的词汇数量，并将词汇数量最多的情绪类型确定为音频文字信息对应的情绪名词，得到N个情绪名词。

具体地，将每个音频文字信息对应的文字情绪词和每个音频文字信息对应的语速信息所对应的语速情绪词进行合并，然后，按照词义将合并后的词语进行分类，统计有相同词义的词语的数量，用于表示属于同一情绪类型的文字情绪词和语速情绪词的词汇数量，并将词汇数量最多的的情绪类型确定为音频文字信息对应的情绪名词，由于在步骤S2中得到的音频文字信息为N个，因此对每个音频文字信息进行分析处理，能够得到N个情绪名词。

例如，继续使用步骤S502和步骤S503中的例子，将音频文字信息对应的文字情绪词“难过”与该音频文字信息对应的语速信息所对应的语速情绪词“悲伤”、“迷茫”、“失落”进行合并，得到“难过/悲伤/迷茫/失落”，然后，按照词义合并后的词语进行分类，统计有相同词义的词语的数量，得到“难过/悲伤/迷茫/失落”都属于情绪类型“忧”，故可以将情绪类型“忧”确定为该音频文字信息对应的情绪名词。

在本实施例中，先通过对音频数据对应的音频文字信息和语速信息，两个维度进行情绪的分析处理，然后将两个维度各自的分析结果进行汇总整理，统计每个音频文字信息对应的文字情绪词和每个音频文字信息对应的语速信息所对应的语速情绪词中，属于同一情绪类型的文字情绪词和语速情绪词的词汇数量，并将词汇数量最多的情绪类型确定为音频文字信息对应的情绪名词，这种先分维度处理，再综合整理每个维度对应的分析结果的方法，能够保证情绪分析的准确性，进而提高情绪识别的准确率。

在一实施例中，如图6所示，步骤S6中，即对每个二值化图像进行情绪识别，确定每个二值化图像对应的情绪标签，得到N个情绪标签具体包括如下步骤：

S601：对每个二值化图像进行图像特征提取，得到二值化图像对应的图像特征值。

在本实施例中，对每个二值化图像进行图像特征提取的方式具体可以是通过将每个二值化图像，输入图像处理软件opencv中，进行LBP特征提取，得到二值化图像对应的LBP纹理特征向量，还可以通过其他方式对每个二值化图像进行图像特征提取，此处不做限制。

优选地，本实施例采用在图像处理软件(opencv)中对每个二值化图像进行LBP特征提取。

具体地，在图像处理软件(opencv)中，对每个二值化图像进行LBP特征提取的过程包括步骤a1)至a5)，详述如下：

a1)将二值化图像通过opencv中预设的检测窗口，将二值化图像划分为16×16的小区域(cell)；

a2)由于二值化图像中包含有每个像素点对应的像素值，因此，针对每个cell中的每个像素点，将中心像素点的像素值与相邻的8个像素点的像素值进行比较，若周围的8个像素值中有大于中心像素点的像素值，则该将像素点的位置被标记为1，否则为0，将每个cell中3*3邻域内的8个像素点经进行比较，能够产生8位二进制数，作为每个cell的中心像素点对应的LBP值；

a3)计算每个cell的直方图，即每个数字出现的频率，其中，每个数字均为十进制数LBP值；

a4)对步骤a3)中的直方图进行归一化处理，得到每个cell的统计直方图；

a5)将得到的每个cell的统计直方图连接成为一个特征向量，得到每个二值化图像的LBP纹理特征向量，即二值化图像对应的图像特征值。

S602：针对每个图像特征值，计算图像特征值和预存的样本特征值之间的相似度。

在本实施例中，针对每个图像特征值，计算图像特征值和预存的样本特征值之间的相似度，其中，相似度的计算方法具体可以是计算图像特征值和预存的样本特征值之间的余弦相似度，或者是计算图像特征值和预存的样本特征值之间的欧氏距离，还可以采用其他相似度计算方法，此处不做限制。

优选地，本实施例中采用余弦相似度计算方法。

具体地，将图像特征值和预存的样本特征值代入余弦相似度公式为

中进行计算，能够得到图像特征值和每个预存的样本特征值之间的相似度，其中，x_i表示图像特征值的分量，y_i表示预存的样本特征值的分量，p表示余弦相似度的值，n表示图像特征值的分量的总个数。

S603：获取数值最大的相似度对应的样本特征值，并将该样本特征值对应的样本情绪图像的情绪类型，作为二值化图像对应的情绪标签。

具体地，由于余弦相似度的值越大则表示该值对应的图像特征值和预存的样本特征值越相似，所以将在步骤S602中计算得到的相似度进行比较，得到这些相似度中数值最大的相似度，然后，由于预存的样本特征值是从样本情绪图像中提取得到的，而每个样本情绪图像具有对应的情绪类型，因此，能够获取数值最大的相似度对应的样本特征值所对应的样本情绪图像的情绪类型，并将该情绪类型作为二值化图像对应的情绪标签，能够保证对二值化图像的情绪识别的准确度。

在本实施例中，通过对每个二值化图像进行图像特征提取，得到二值化图像对应的图像特征值，由于相似度的值越大则表示该值对应的图像特征值和预存的样本特征值越相似，因此，针对每个图像特征值，计算图像特征值和预存的样本特征值之间的相似度，并将数值最大的相似度对应的样本特征值所对应的样本情绪图像的情绪类型，作为二值化图像对应的情绪标签，能够保证对二值化图像的情绪识别的准确度。

在一实施例中，如图7所示，在步骤S7之后，该情绪识别方法还包括如下步骤：

S8：判断情绪识别结果是否满足预设的不良情绪指标。

在本实施例中，自定义疾病库中包含了预先设置的不良情绪指标，以及与不良的情绪类型相对应的疾病信息，其中，不良情绪指标是根据实际应用需求进行设置的，此处不做限制，如不良情绪指标可以为情绪类型属于“忧”、“恐”或“惊”。

具体地，判断情绪识别结果是否满足预设的不良情绪指标，具体可以是通过简单的比对方式，将在步骤S7中得到的情绪识别结果中的情绪类型与预设的不良情绪指标进行比对，若情绪识别结果中的情绪类型属于预设的不良情绪指标，则若判断结果为是，若情绪识别结果不属于预设的不良情绪指标，则判断结果为否。也可以是通过不良情绪指标阈值的比较方式，具体可以是按照情绪类型预先设置的情绪指标权重，即每种情绪类型对应一个情绪指标权重，将情绪识别结果中的情绪类型的分数与该情绪类型对应的情绪指标权重进行相乘，得到的积，作为情绪识别结果的目标情绪分数，若得到的目标情绪分数的数值大于或等于不良情绪指标阈值，则确定该情绪识别结果属于不良情绪指标，即判断结果为是，若得到的目标情绪分数的数值小于不良情绪指标阈值，则确定该情绪识别结果不属于不良情绪指标，即判断结果为否，本实施例采用的是不良情绪指标阈值的比较方式。

S9：若判断结果为是，则在自定义疾病库中获取与情绪识别结果相对应的疾病信息，并按照预设的提示发送方式，向用户发送疾病预防提示。

在本实施例中，按照预设的提示发送方式，向用户发送疾病预防提示，具体可以是将在步骤S8中得到的属于预设的不良情绪指标的情绪识别结果的目标情绪分数与预设的提示阈值范围进行比对，得到该目标情绪分数属于的提示阈值范围，然后根据预设的提示阈值范围与信息的提示等级对应关系，获取该目标情绪分数属于的提示阈值范围对应的信息的提示等级，按照该信息的提示等级的优先级，向用户发送疾病预防提示，其中，提示发送方式包括信息的提示等级、情绪识别结果中的情绪类型和该情绪类型对应的数量和情绪识别结果的情绪类型相对应的疾病信息等。

例如，预设的提示阈值范围中(50，60]对应的信息的提示等级为非紧急，预设的提示阈值范围中(60-70]对应的信息的提示等级为初级紧急，预设的提示阈值范围中(70-80]对应的信息的提示等级为中级紧急，预设的提示阈值范围中(80-90]对应的信息的提示等级为高级紧急，预设的提示阈值范围中(90-100]对应的信息的提示等级为特级紧急。

具体地，若判断结果为是，则说明情绪识别结果是属于不良的情绪类型，而自定义疾病库中包含了与不良的情绪类型相对应的疾病信息，因此可以在自定义疾病库中查找与情绪识别结果的情绪类型相对应的疾病信息，并根据该情绪识别结果的目标情绪分数与预设的提示阈值范围进行比对，获取该目标情绪分数属于的提示阈值范围对应的信息的提示等级，按照该信息的提示等级的优先级，优先向用户发送提示等级为特级紧急的疾病预防提示，向用户发送疾病预防提示具体可以是将被确定属于不良情绪指标的情绪识别结果包含在疾病预防提示的内容中，并备注该情绪识别结果属于的提示等级，该情绪识别结果属于不良的情绪类型，以及与该情绪识别结果的情绪类型相对应的疾病信息，便于用户根据疾病预防提示，及时了解自身的情绪状态和身体情况，并根据预防提示中的疾病信息，采取相应的治疗，达到及时预防疾病的效果。

其中，疾病预防提示的发送方式具体可以是但不限于采用邮件、短信或即时消息，还可以是其他方式，此处不做限制。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种情绪识别装置，该情绪识别装置与上述实施例中情绪识别方法一一对应。如图8所示，该情绪识别装置包括数据获取模块801、数据处理模块802、图像提取模块803、图像处理模块804、情绪分析模块805、情绪识别模块806和结果获取模块807。各功能模块详细说明如下：

数据获取模块801，用于获取源文件，其中，源文件包括音频数据，以及与音频数据相对应的视频图像数据；

数据处理模块802，用于对音频数据进行数据转换处理，得到N个音频文字信息和每个音频文字信息对应的语速信息，其中，N为大于等于1的正整数，每个音频文字信息对应一个文字时间段；

图像提取模块803，用于从视频图像数据中提取每个文字时间段对应的切分图像数据；

图像处理模块804，用于按照预设的选取方式，在每个切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像；

情绪分析模块805，用于分别对每个音频文字信息和每个音频文字信息对应的语速信息进行情绪分析，并根据音频文字信息对应的情绪分析结果和语速信息对应的情绪分析结果的合集，确定每个音频文字信息对应的情绪名词，得到N个情绪名词；

情绪识别模块806，用于对每个二值化图像进行情绪识别，确定每个二值化图像对应的情绪标签，得到N个情绪标签；

结果获取模块807，用于将N个情绪名词和N个情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定源文件对应的情绪类型和情绪类型的分数，并将确定的情绪类型和分数作为源文件的情绪识别结果。

进一步地，数据处理模块802包括：

数据解码单元，用于对音频数据进行解码分析，得到音频数据对应的文字和每个文字对应的时间点；

差值计算单元，用于按照时间点的先后顺序，计算每两个相邻的时间点之间的差值，若差值大于或等于预设的静音阈值，则将差值对应的两个相邻的时间点分别确定为静音时间戳的静音起始点和静音终止点；

时间确定单元，用于在每两个相邻静音时间戳中，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，得到的差作为文字时间段，并将前一个静音时间戳的静音终止点作为文字时间段的时间起始点，将后一个静音时间戳的静音起始点作为文字时间段的时间终止点；

信息确定单元，用于将每个文字时间段中的文字，作为文字时间段对应的音频文字信息；

数量统计单元，用于统计每个音频文字信息中包含的文字的数量，并将音频文字信息中包含的文字的数量与音频文字信息对应的文字时间段之间的商，作为音频文字信息对应的语速信息。

进一步地，图像处理模块804包括：

灰度化处理单元，用于针对每个切分图像数据，在切分图像数据中随机提取一帧图像进行灰度化处理，得到每个切分图像数据对应的灰化图像；

二值化处理单元，用于对每个灰化图像进行二值化处理，得到N个二值化图像。

进一步地，情绪分析模块805包括：

分词处理单元，用于对每个音频文字信息进行分词处理，得到每个音频文字信息对应的文字单词；

单词匹配单元，用于根据预设的情绪单词，将每个音频文字信息对应的文字单词与情绪单词进行匹配，并将匹配成功的文字单词确定为音频文字信息对应的文字情绪词；

信息处理单元，用于根据情绪阈值范围与情绪词之间预设的对应关系，获取每个语速信息属于的情绪阈值范围对应的情绪词，并将获取到的情绪词作为语速信息对应的语速情绪词；

数量统计单元，用于统计每个音频文字信息对应的文字情绪词和每个音频文字信息对应的语速信息所对应的语速情绪词中，属于同一情绪类型的文字情绪词和语速情绪词的词汇数量，并将词汇数量最多的情绪类型确定为音频文字信息对应的情绪名词，得到N个情绪名词。

进一步地，情绪识别模块806包括：

特征提取单元，用于对每个二值化图像进行图像特征提取，得到二值化图像对应的图像特征值；

相似度计算单元，用于针对每个图像特征值，计算图像特征值和预存的样本特征值之间的相似度；

情绪确定单元，用于获取数值最大的相似度对应的样本特征值，并将该样本特征值对应的样本情绪图像的情绪类型，作为二值化图像对应的情绪标签。

进一步地，该情绪识别装置还包括：

指标判断模块，用于判断情绪识别结果是否满足预设的不良情绪指标；

提示发送模块，用于若判断结果为是，则在自定义疾病库中获取与情绪识别结果相对应的疾病信息，并按照预设的提示发送方式，向用户发送疾病预防提示。

关于情绪识别装置的具体限定可以参见上文中对于情绪识别方法的限定，在此不再赘述。上述情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于保存情绪词的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情绪识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例情绪识别方法的步骤，例如图2所示的步骤S1至步骤S7。或者，处理器执行计算机程序时实现上述实施例中情绪识别装置的各模块/单元的功能，例如图8所示模块801至模块807的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中情绪识别方法，或者，该计算机程序被处理器执行时实现上述装置实施例中情绪识别装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种情绪识别方法，其特征在于，所述情绪识别方法包括：

将N个所述情绪名词和N个所述情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定所述源文件对应的情绪类型和所述情绪类型的分数，并将确定的所述情绪类型和所述分数作为所述源文件的情绪识别结果。

2.如权利要求1所述的情绪识别方法，其特征在于，所述文字时间段包括时间起始点和时间终止点，所述对所述音频数据进行数据转换处理，得到N个音频文字信息和每个所述音频文字信息对应的语速信息包括：

对所述音频数据进行解码分析，得到所述音频数据对应的文字和每个所述文字对应的时间点；

按照所述时间点的先后顺序，计算每两个相邻的所述时间点之间的差值，若所述差值大于或等于预设的静音阈值，则将所述差值对应的两个相邻的时间点分别确定为静音时间戳的静音起始点和静音终止点；

在每两个相邻静音时间戳中，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，得到的差作为所述文字时间段，并将所述前一个静音时间戳的静音终止点作为所述文字时间段的时间起始点，将所述后一个静音时间戳的静音起始点作为所述文字时间段的时间终止点；

将每个所述文字时间段中的文字，作为所述文字时间段对应的所述音频文字信息；

统计每个所述音频文字信息中包含的文字的数量，并将所述音频文字信息中包含的文字的数量与所述音频文字信息对应的所述文字时间段之间的商，作为所述音频文字信息对应的所述语速信息。

3.如权利要求1所述的情绪识别方法，其特征在于，所述按照预设的选取方式，在每个所述切分图像数据中选取一帧图像进行图像预处理，得到N个二值化图像包括：

针对每个所述切分图像数据，在所述切分图像数据中随机提取一帧图像进行灰度化处理，得到每个所述切分图像数据对应的灰化图像；

对每个所述灰化图像进行二值化处理，得到N个二值化图像。

4.如权利要求1所述的情绪识别方法，其特征在于，所述分别对每个所述音频文字信息和每个所述音频文字信息对应的语速信息进行情绪分析，并根据所述音频文字信息对应的情绪分析结果和所述语速信息对应的情绪分析结果的合集，确定每个所述音频文字信息对应的情绪名词，得到N个所述情绪名词包括：

对每个所述音频文字信息进行分词处理，得到每个所述音频文字信息对应的文字单词；

根据预设的情绪单词，将每个所述音频文字信息对应的文字单词与所述情绪单词进行匹配，并将匹配成功的所述文字单词确定为所述音频文字信息对应的文字情绪词；

根据情绪阈值范围与情绪词之间预设的对应关系，获取每个所述语速信息属于的情绪阈值范围对应的情绪词，并将获取到的情绪词作为所述语速信息对应的语速情绪词；

统计每个所述音频文字信息对应的文字情绪词和每个所述音频文字信息对应的所述语速信息所对应的语速情绪词中，属于同一情绪类型的文字情绪词和语速情绪词的词汇数量，并将词汇数量最多的情绪类型确定为所述音频文字信息对应的所述情绪名词，得到N个所述情绪名词。

5.如权利要求1所述的情绪识别方法，其特征在于，所述对每个所述二值化图像进行情绪识别，确定每个所述二值化图像对应的情绪标签，得到N个所述情绪标签包括：

对每个所述二值化图像进行图像特征提取，得到所述二值化图像对应的图像特征值；

针对每个所述图像特征值，计算所述图像特征值和预存的样本特征值之间的相似度；

获取数值最大的相似度对应的所述样本特征值，并将该样本特征值对应的样本情绪图像的情绪类型，作为所述二值化图像对应的所述情绪标签。

6.如权利要求1所述的情绪识别方法，其特征在于，在所述将N个所述情绪名词和N个所述情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定所述源文件对应的情绪类型和所述情绪类型的分数，并将确定的所述情绪类型和所述分数作为所述源文件的情绪识别结果之后，所述情绪识别方法还包括：

判断所述情绪识别结果是否满足预设的不良情绪指标；

若判断结果为是，则在自定义疾病库中获取与所述情绪识别结果相对应的疾病信息，并按照预设的提示发送方式，向用户发送疾病预防提示。

7.一种情绪识别装置，其特征在于，所述情绪识别装置包括：

结果获取模块，用于将N个所述情绪名词和N个所述情绪标签进行汇总，按照预设的统计方式，统计属于同一情绪类型的情绪名词和情绪标签的数量，并根据统计得到的数据确定所述源文件对应的情绪类型和所述情绪类型的分数，并将确定的所述情绪类型和所述分数作为所述源文件的情绪识别结果。

8.如权利要求7所述的情绪识别装置，其特征在于，所述数据处理模块包括：

数据解码单元，用于对所述音频数据进行解码分析，得到所述音频数据对应的文字和每个所述文字对应的时间点；

差值计算单元，用于按照所述时间点的先后顺序，计算每两个相邻的所述时间点之间的差值，若所述差值大于或等于预设的静音阈值，则将所述差值对应的两个相邻的时间点分别确定为静音时间戳的静音起始点和静音终止点；

时间确定单元，用于在每两个相邻静音时间戳中，将后一个静音时间戳的静音起始点减去前一个静音时间戳的静音终止点，得到的差作为所述文字时间段，并将所述前一个静音时间戳的静音终止点作为所述文字时间段的时间起始点，将所述后一个静音时间戳的静音起始点作为所述文字时间段的时间终止点；

信息确定单元，用于将每个所述文字时间段中的文字，作为所述文字时间段对应的所述音频文字信息；

数量统计单元，用于统计每个所述音频文字信息中包含的文字的数量，并将所述音频文字信息中包含的文字的数量与所述音频文字信息对应的所述文字时间段之间的商，作为所述音频文字信息对应的所述语速信息。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述情绪识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述情绪识别方法的步骤。