CN109934091A

CN109934091A - 基于图像识别的辅助发音方法、装置、计算机设备及存储介质

Info

Publication number: CN109934091A
Application number: CN201910042791.7A
Authority: CN
Inventors: 刘轲
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-25

Abstract

本发明公开一种基于图像识别的辅助发音方法、装置、设备及介质，该方法包括获取文字数据和与文字数据对应的视频数据，视频数据包含至少两帧待识别图像；采用预先训练好的年龄分类器对待识别图像进行识别，获取与视频数据对应的目标年龄；采用预先训练好的性别分类器对待识别图像进行识别，获取与视频数据对应的目标性别；采用预先训练好的微表情识别模型对待识别图像进行识别，获取与视频数据相对应的目标情绪；基于目标年龄、目标性别和目标情绪查找数据库，获取对应的目标发音模板；依据目标发音模板，采用TTS技术对文字数据进行语音转换，获取与目标发音模板相对应的语音数据，进行语音播报，解决辅助发音系统转换不精准的问题。

Description

基于图像识别的辅助发音方法、装置、计算机设备及存储介质

技术领域

本发明涉及微表情识别领域，尤其涉及一种基于图像识别的辅助发音方法、装置、计算机设备及存储介质。

背景技术

目前，辅助说话不便的用户的辅助发音系统，通常先确定说话不便的用户需要表达的文字数据，根据预先设定的发音模板将文字数据转换成语音数据，再播报放给其他人听，而发音模板是一些预先设定的标准男声、标准女声和标准儿童声等。不同年龄段，不同性别的说话不便的用户说话方式不同，例如，年龄较大的男性声音比较低沉，年龄较小的男性声音比较轻快等，通过标准男声、标准女声和标准儿童声将文字数据进行语音播报时，使得语音播报不太符合说话不便的用户的年龄和性别，比较呆板生硬。而且，当说话不便的用户情绪比较激动或情绪波动较大时，通过标准男声、标准女声和标准儿童声将文字数据进行语音播报时，不能体现出说话不便的用户的情绪变化。当前辅助发音系统无法依据年龄、性别和情绪变化进行语音报告，导致辅助发音系统的转换不精准。

发明内容

本发明实施例提供一种基于图像识别的辅助发音方法、装置、计算机设备及存储介质，以解决辅助发音系统转换不精准的问题。

一种基于图像识别的辅助发音方法，包括：

获取文字数据和与所述文字数据对应的视频数据，所述视频数据包含至少两帧待识别图像；

采用预先训练好的年龄分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标年龄；

采用预先训练好的性别分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标性别；

采用预先训练好的微表情识别模型对至少两帧所述待识别图像进行识别，获取与所述视频数据相对应的目标情绪；

基于所述目标年龄、所述目标性别和所述目标情绪查找数据库，获取对应的目标发音模板；

依据所述目标发音模板，采用TTS技术对所述文字数据进行语音转换，获取与所述目标发音模板相对应的语音数据，基于所述语音数据进行语音播报。

一种基于图像识别的辅助发音装置，包括：

数据获取模块，用于获取文字数据和与所述文字数据对应的视频数据，所述视频数据包含至少两帧待识别图像；

目标年龄获取模块，用于采用预先训练好的年龄分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标年龄；

目标性别获取模块，用于采用预先训练好的性别分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标性别；

目标情绪获取模块，用于采用预先训练好的微表情识别模型对至少两帧所述待识别图像进行识别，获取与所述视频数据相对应的目标情绪；

标发音模板获取模块，用于基于所述目标年龄、所述目标性别和所述目标情绪查找数据库，获取对应的目标发音模板；

语音播报模块，用于依据所述目标发音模板，采用TTS技术对所述文字数据进行语音转换，获取与所述目标发音模板相对应的语音数据，基于所述语音数据进行语音播报。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于图像识别的辅助发音方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于图像识别的辅助发音方法的步骤。

上述基于图像识别的辅助发音方法、装置、计算机设备及存储介质，该方法包括采用预先训练好的年龄分类器和性别分类器，对用户发送文字数据时的视频数据中的待识别图像进行识别，获取用户的目标年龄和目标性别，以便后续进行语音播报时，更符合用户，以完善辅助发音系统。采用预先训练好的微表情识别模型对待识别图像进行识别，获取用户发送文字数据时的目标情绪，以实现对用户情绪进行识别，后续语音播报时，符合用户的情绪，以完善辅助发音系统。根据目标年龄、目标性别和目标情绪确定对应的目标发音模板，采用TTS技术对文字数据进行语音转换，获取与目标发音模板相对应的语音数据，基于语音数据进行语音播报，使得语音播报更加符合用户的目标年龄、目标性别和目标情绪，提高语音播报的精准度，以完善辅助发音系统。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于图像识别的辅助发音方法的一应用环境示意图；

图2是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图3是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图4是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图5是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图6是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图7是本发明一实施例中基于图像识别的辅助发音方法的一流程图；

图8是本发明一实施例中基于图像识别的辅助发音装置的一原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于图像识别的辅助发音方法，如图1所示，该辅助发音方法应用在辅助发音系统的服务端，其中，用户端通过网络与服务端进行通信。服务端通过预先训练好的分类器和微表情识别模型对用户发送文字数据时的视频数据进行识别，以确定用户的年龄、性别以及用户发送文字数据时的情绪，并根据用户的年龄、性别以及用户情绪确定目标发音模板，通过目标发音模板对文字数据进行语音播报，从而使得语音播报的语音数据符合用户的年龄、性别和情绪，以完善辅助发音系统，提高辅助发音系统进行语音转换的准确率。其中，用户端可以但不限于个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。

在一实施例中，如图2所示，提供一种基于图像识别的辅助发音方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取文字数据和与文字数据对应的视频数据，视频数据包含至少两帧待识别图像。

其中，文字数据是指用户基于用户端发送给服务端，需要通过辅助发音系统进行转换的文字。视频数据是指用户发送文字数据时，采集到的用户脸部表情变化的视频。

具体地，辅助发音系统的服务端设有文字数据获取接口和视频数据获取接口。服务端通过文字数据获取接口，获取用户基于用户端发送的文字数据，并通过视频数据获取接口，获取到用户通过用户端发送文字数据时采集的用户脸部表情变化的视频数据，该视频数据中包含至少两帧待识别图像，通常待识别图像为包含用户脸部的图像。视频数据具体可通过采集工具对用户脸部表情变化进行采集，具体可以是摄像头。

进一步地，服务端设有一提醒端口，以提醒用户对需要表达的文字数据进行分句发送。例如，“好的”，“谢谢您”，作为两句话，服务端先获取文字数据“好的”以及用户发送“好的”时的视频数据，进行语音播报后，服务端再获取文字数据“谢谢您”以及用户发送“谢谢您”时的视频数据。本实施例中，通过提醒端口提醒用户对需要表达的文字数据进行分句发送对分句，并分别获取用户发送的每一句文字数据以及发送每一文字数据时的视频数据，通过视频数据确定与该句文字数据对应的情绪，提高辅助发音系统的稳定性。

S20：采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标年龄。

其中，目标年龄是指通过年龄分类器对待识别图像进行识别，并根据识别结果确定的年龄，具体可以是年龄段。年龄分类器是预先训练好的分类器，用于对视频数据中待识别图像进行识别，预测出与待识别图像中用户脸部对应的年龄。年龄分类器进行训练时，先获取大量的训练图像数据，训练图像数据中包含不同年龄的人脸图像，将训练图像数据中的每一人脸图像进行年龄标注，将标注后的训练图像数据输入至深度神经网络，并通过深度神经网络对标注后的训练图像数据进行训练，由于深度神经网络包括至少两个卷积层，将年龄预测值和已标注的年龄进行比对，以调整深度神经网络中各层的权重和偏差，直至模型收敛，获取年龄分类器。所谓年龄分类器的收敛，即年龄分类器输出的年龄预测结果与实际年龄之间的误差小于预设误差阈值或者年龄预测结果与实际年龄相匹配，模型训练步骤属于现有技术，这里不再详述。

具体地，采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，待识别图像为包含用户脸部的图像，将包含用户脸部的待识别图像进行人脸关键点检测和特征提取等，最后将提取的脸部特征输入到预先训练好的年龄分类器中，通过年龄分类器对脸部特征进行分类，以获取与待识别图像对应的识别年龄，并根据识别年龄按预设的年龄段进行分类，确定目标年龄。例如，识别年龄为25岁，预设的年龄段包括20-35岁，那么通过25岁按预设的年龄段进行分类，获取到的目标年龄为20-35岁。可以理解地，统计视频数据中每一待识别图像对应的年龄段的识别数量，将最大识别数量作为与视频数据对应的目标年龄。通过预先训练好的年龄分类器来对待识别图像进行用户年龄预估，以提升年龄获取准确度。

S30：采用预先训练好的性别分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标性别。

其中，目标性别是指通过性别分类器对待识别图像进行识别，根据识别结果确定的性别。性别分类器是预先训练好的分类器，用于对视频数据中待识别图像进行识别，确定与待识别图像中用户脸部对应的性别。性别分类器进行预先训练时，先获取大量的训练图像数据，该训练图像数据与训练年龄分类器所使用的训练图像数据可相同，训练图像数据包含不同性别的人脸图像，对训练图像数据中的每一人脸图像进行性别标注，将标注后的训练图像数据输入至深度神经网络，并通过深度神经网络对标注后的训练图像数据进行训练，由于深度神经网络包括至少两个卷积层，将性别预测值和已标注的性别进行比对，以调整深度神经网络中各层的权重和偏差，直至模型收敛，获取性别分类器。所谓性别分类器的收敛，即性别分类器输出的预测性别与实际性别相同，模型训练步骤属于现有技术，这里不再详述。

具体地，采用预先训练好的性别分类器对至少两帧待识别图像进行识别，待识别图像为包含用户脸部的图像，将包含用户脸部的待识别图像进行人脸关键点检测和特征提取等，最后将提取的脸部特征输入到预先训练好的性别分类器中，通过性别分类器对脸部特征进行识别，以获取与待识别图像对应的识别性别，并根据所有待识别图像对应的识别性别，确定目标性别。可以理解地，根据所有待识别图像对应的识别性别，确定每一识别性别对应的数量，并将最大数量对应的性别作为目标性别。通过预先训练好的性别分类器来对待识别图像进行用户性别预估，以提升性别获取准确度。

S40：采用预先训练好的微表情识别模型对至少两帧待识别图像进行识别，获取与视频数据相对应的目标情绪。

其中，微表情识别模型是指通过捕捉待识别图像中的用户脸部的局部特征，并根据局部特征识别待识别图像中人物的各个面部动作单元。目标情绪是指通过微表情识别模型对待识别图像进行识别，根据识别出的目标面部动作单元确定的情绪。其中，微表情识别模型可以是基于深度学习的神经网络识别模型，可以是基于分类的局部识别模型，还可以是基于局部二值模式(Local Binary Pattern，LBP)的局部情绪识别模型。本实施例中，微表情识别模型是基于分类的局部识别模型，微表情识别模型预先进行训练时，通过预先收集大量的训练图像数据，训练图像数据可与前面训练年龄分类器和训练性别分类器的训练图像数据相同。训练图像数据中包含每一面部动作单元的正样本和面部动作单元的负样本，通过分类算法对训练图像数据进行训练，获取微表情识别模型。本实施例中，可以是通过SVM分类算法对大量的训练图像数据进行训练，以获取到与N个面部动作单元对应的 SVM分类器。例如，可以是39个面部动作单元对应的39个SVM分类器，也可以是54 个面部动作单元对应的54个SVM分类器，进行训练的训练图像数据中包含的不同面部动作单元的正样本和负样本越多，则获取到的SVM分类器数量越多。可以理解地，获取到的SVM分类器越多，所识别出的情绪越精准，通过N个SVM分类器以形成微表情识别模型。

具体地，服务端先对至少两帧待识别图像进行人脸关键点检测和特征提取等，再将至少两帧待识别图像对应的局部特征输入至预先训练好的微表情识别模型中。微表情识别模型中包括N个SVM分类器，每个SVM分类器对一个面部动作单元的局部特征进行识别，通过N个SVM分类器对输入的所有局部特征进行识别，获取N个SVM分类器输出的与面部动作单元对应的概率值，当概率值大于预设阈值时，则将大于预设阈值对应的每一面部动作单元确定为目标面部动作单元。其中，目标面部动作单元是指根据微表情识别模型对待识别图像进行识别，获取到的面部动作单元(Action Unit，AU)，根据每一待识别图像对应的目标面部动作单元确定单帧情绪，并通过所有单帧情绪确定目标情绪。本实施例中，微表情识别模型中包含54个SVM分类器，建立面部动作单元编号映射表，每个面部动作单元用一个预先规定的编号表示。例如，AU1为内眉上扬，AU2为外眉上扬，AU5 为上眼睑上扬和AU26为下颚张开等。每个面部动作单元有训练好对应的SVM分类器。例如，通过内眉上扬对应的SVM分类器可识别出内眉上扬的局部特征属于内眉上扬的概率值，通过外眉上扬对应的SVM分类器可识别出外眉上扬的局部特征属于外眉上扬的概率值等。概率值具体可以是0-1之间的值，若输出的概率值为0.6，预设阈值为0.5，那么概率值0.6大于预设阈值0.5，则将0.6对应的面部动作单元，作为待识别图像的目标面部动作单元。通过54个SVM分类器对局部特征进行识别，确定与待识别图像对应的所有目标面部动作单元，并根据所有目标面部动作单元，确定每一目标面部动作单元的动作情绪值，并根据每一待识别图像对应的汇总情绪值查找微表情评估表，确定与待识别图像对应的单帧情绪，并根据所有单帧情绪确定目标情绪，以提高获取用户的目标情绪的准确性。

S50：基于目标年龄、目标性别和目标情绪查找数据库，获取对应的目标发音模板。

其中，目标发音模板是指与目标年龄、目标性别和目标情绪相匹配的配置发音模板。配置发音模板是将不同的配置年龄、不同的配置性别和不同的配置情绪进行组合，并预先配置对应的发音模板，将配置年龄、配置性别和配置情绪对应的组合与配置发音模板关联存储在数据库中。

具体地，数据库与服务端网络连接，基于目标年龄、目标性别和目标情绪查找数据库，获取与目标年龄、目标性别和目标情绪相匹配的目标组合；将与目标组合相对应的配置发音模板确定为目标发音模板。可以理解地，将目标年龄与数据库中配置年龄进行匹配，将目标性别与数据库中配置性别进行匹配，将目标情绪与数据库中配置情绪进行匹配，若某一组合中配置年龄、配置性别和配置情绪均与目标年龄、目标性别和目标情绪匹配成功，则将该组合作为目标组合，并获取目标组合对应的配置发音模板作为目标发音模板。需要说明的是，配置发音模版中的语量和语速等根据配置年龄、配置性别和配置情绪预先设定好的。例如，年龄越大的男性语量较大，语速较快，当情绪波动大时，语量的更大；再例如，年龄较小的女性，语量较小，语速较慢等。

S60：依据目标发音模板，采用TTS技术对文字数据进行语音转换，获取与目标发音模板相对应的语音数据，基于语音数据进行语音播报。

其中，TTS(Text To Speech，文本转语音)技术是指将文本数据转换为语音数据，并进行播报的技术。TTS技术在内置芯片的支持之下，通过神经网络的设计，把文字数据智能地转化为语音数据，广泛用于帮助视力障碍人士进行阅读或者语言障碍人士进行语言交流。

具体地，服务端依据预先获取到的目标发音模板，采用TTS技术将文字数据进行转换，获取与目标发音模板对应的语音数据，并将语音数据进行语音播报。其中，进行语音播报时，将用户的文字数据，与用户情绪、用户年龄和用户性别相对应，即通过语音播报时，以与用户的情绪、用户年龄和用户性别相对应的语音对文字数据进行语音播报，以完善辅助发音系统，使得语音播报更加绘声绘色，提高辅助发音系统的转换准确性。

步骤S10-S60中，采用预先训练好的年龄分类器和性别分类器，对用户发送文字数据时的视频数据中的待识别图像进行识别，获取用户的目标年龄和目标性别，以便后续进行语音播报时，更符合用户，以完善辅助发音系统。采用预先训练好的微表情识别模型对待识别图像进行识别，获取用户发送文字数据时的目标情绪，以实现对用户情绪进行识别，后续语音播报时，符合用户的情绪，以完善辅助发音系统。根据目标年龄、目标性别和目标情绪确定对应的目标发音模板，采用TTS技术对文字数据进行语音转换，获取与目标发音模板相对应的语音数据，基于语音数据进行语音播报，使得语音播报更加符合用户的目标年龄、目标性别和目标情绪，提高语音播报的精准度，以完善辅助发音系统。其中，目标年龄、目标性别和目标情绪的获取可同时进行，以提高辅助发音系统的转换效率。

在一实施例中，如图3所示，步骤S20中，采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标年龄，具体包括如下步骤：

S21：采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取每一待识别图像对应的识别年龄。

其中，识别年龄是指通过年龄分类器对待识别图像进行识别，所预测出的年龄。

具体地，服务端将获取到的至少两帧待识别图像输入至预先训练好的年龄分类器中，通过年龄分类器对至少两帧待识别图像进行识别，获取与每一待识别图像对应的识别年龄。可以理解地，通过年龄分类器对待识别图像进行识别，获取与待识别图像对应的预测年龄，将该预测年龄作为识别年龄。通过年龄分类器对每一待识别图像进行识别，快速获取到每一待识别图像对应的识别年龄，以提高获取识别年龄的速度。

S22：将识别年龄按预设的年龄段进行分类，统计每一年龄段对应的识别数量。

其中，年龄段是指预先对年龄进行划分，以获取到的年龄段。例如，对年龄可划分为 15岁以下、15-20岁、0-35岁、35-60岁以及60岁以上。需要说明的是，预设的年龄段与后续语音发音模板中配置年龄应当相对应，以便通过获取到的目标年龄可查找到对应的目标发音模板，则配置年龄也应划分为15岁以下、15-20岁、20-35岁、35-60岁以及60岁以上。其中，配置年龄是指配置发音模板是将年龄进行划分的的年龄。

具体地，服务端根据识别年龄查找预设的年龄段，确定与每一识别年龄对应的年龄段，并统计每一年龄段对应的识别数量。例如，用户皱眉时，通过年龄分类器识别出的识别年龄较大，某一视频数据中包含20帧待识别图像，15帧待识别图像对应的识别年龄为25岁或26岁，5帧待识别图像对应的识别年龄为35岁或36岁，先根据识别年龄25岁或26岁按预设的年龄段进行分类，以确定识别年龄25岁或26岁在20-35岁年龄段范围内，再根据识别年龄35岁或36岁按预设的年龄段进行分类，以确定识别年龄35岁或36岁在35-60 岁年龄段范围内，统计20-35岁年龄段对应的识别数量为15，35-60岁年龄段对应的识别数量为5。

S23：将识别数量最多的年龄段确定为目标年龄。

其中，目标年龄是指根据所有识别年龄所确定的年龄。

具体地，服务端根据年龄段对应的识别数量，将识别数量最多对应的年龄段确定为目标年龄。例如，20-35岁年龄段对应的识别数量为15，35-60岁年龄段对应的识别数量为5，则将识别数量15对应的年龄段20-35岁确定为目标年龄。

步骤S21-S23中，采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取每一待识别图像对应的识别年龄，为后续确定目标年龄提供技术支持。将识别年龄按预设的年龄段进行分类，统计每一年龄段对应的识别数量，并将识别数量最多的年龄段确定为目标年龄，实现目标年龄的确定，目标年龄的确定方法简单快速，以提高辅助发音系统的转换速度。

在一实施例中，如图4所示，步骤S30中，即采用预先训练好的性别分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标性别，具体包括如下步骤：

S31：采用预先训练好的性别分类器对至少两帧待识别图像进行识别，获取与每一待识别图像对应的识别性别。

其中，识别性别是指通过性别分类器对待识别图像进行识别，所识别出的性别。

具体地，服务端将获取到的至少两帧待识别图像输入至预先训练好的性别分类器中，通过性别分类器对至少两帧待识别图像进行识别，获取与每一待识别图像对应的识别性别。可以理解地，通过性别分类器对待识别图像进行识别，获取与待识别图像对应的预测性别，将该预测性别作为识别性别。通过性别分类器对每一待识别图像进行识别，以获取到每一待识别图像对应的识别性别，以提高获取识别性别的速度。

S32：若所有待识别图像对应的识别性别相同，则将识别性别作为目标性别。

其中，目标性别是指根据所有识别性别确定的性别。

具体地，服务端对每一待识别图像对应的识别性别进行判断，并确定所有待识别图像对应的识别性别是否相同，若所有待识别图像对应的识别性别相同，则将识别性别作为目标性别。例如，某一视频数据中包含20帧待识别图像，所有待识别图像对应的识别性别为男性，那么将男性作为目标性别。

S33：若存在两帧待识别图像对应的识别性别不同，则统计每一识别性别对应的数量，将最大数量对应的识别性别作为目标性别。

具体地，服务端对每一待识别图像对应的识别性别进行判断，并确定所有待识别图像对应的识别性别是否相同，若存在两帧待识别图像对应的识别性别不同，则统计每一识别性别对应的数量，将最大数量对应的识别性别作为目标性别。例如，某一视频数据中包含 20帧待识别图像，15帧待识别图像对应的识别性别为男性,，5帧待识别图像对应的识别性别为女性性，那么统计出的识别性别为男性的数量为15，统计出的识别性别为女性的数量为5，则将最大数量对应的识别性别(即男性)作为目标性别。

步骤S31-S33，采用预先训练好的性别分类器对至少两帧待识别图像进行识别，以获取到用户的识别性别，为后续确定目标性别提供技术支持。若所有待识别图像对应的识别性别相同，则将识别性别作为目标性别，实现目标性别的确定。若存在两帧待识别图像对应的识别性别不同，则统计每一识别性别对应的数量，将最大数量对应的识别性别作为目标性别，实现目标性别的确定。目标性别的确定方法简单快速，以提高辅助发音系统的转换速度。

在一实施例中，如图5所示，步骤S40中，即采用预先训练好的微表情识别模型对至少两帧待识别图像进行识别，获取与视频数据相对应的目标情绪，具体包括如下步骤：

S41：采用预先训练好的微表情识别模型对每一待识别图像进行识别，获取每一待识别图像对应的目标面部动作单元。

具体地，采用预先训练好的微表情识别模型中包括54个SVM分类器，每个SVM分类器用于确定一个面部动作单元。本实施例中，采用预先训练好的微表情识别模型中的所有SVM分类器分别对每一待识别图像进行识别，获取每一SVM分类器输出的概率值，并确定概率值是否大于预设阈值。其中，预设阈值时预先设定的值，若概率值大于预设阈值，则将大于预设阈值的概率值对应的面部动作单元确定为目标面部动作单元。通过微表情识别模型对每一待识别图像进行识别，获取与每一待识别图像对应的目标面部动作单元，以便通过目标面部动作单元确定用户情绪。

S42：根据每一待识别图像对应的目标面部动作单元查找微表情评估表，获取与每一待识别图像对应的单帧情绪。

其中，微表情评估表是指预先配置的汇总情绪值与情绪的对应关系。具体地，根据每一待识别图像对应的目标面部动作单元，根据该目标面部动作单元确定对应的动作情绪值，并根据每一待识别图像对应的汇总情绪值查找微表情评估表，确定与每一待识别图像对应的单帧情绪。可以理解地，情绪越快乐，所对应的动作情绪值越高，情绪越低落，所对应的动作情绪值越低，根据每一待识别图像对应的汇总情绪值查找微表情评估表，获取与该汇总情绪值对应的情绪，将该情绪作为与待识别图像对应的单帧情绪。其中，动作情绪值是指预先配置的与目标面部动作单元对应的分值。汇总情绪值是指与待识别图像对应的所有目标面部动作单元的动作情绪值之和。

S43：依据至少两帧待识别图像对应的单帧情绪，获取与视频数据相对应的目标情绪。

具体地，服务端获取每一待识别图像对应的单帧情绪，并根据每一单帧情绪确定与视频数据对应的目标情绪。可以理解地，若所有单帧情绪相同，则将单帧情绪作为目标情绪。若至少两帧待识别图像对应的单帧情绪不相同，则确定视频数据中哪种单帧情绪对应的最大数量，将最大数量对应的单帧情绪作为目标情绪。若最大数量对应的单帧情绪为至少两个，则将积极情绪对应的单帧情绪作为目标情绪。若最大数量对应的单帧情绪为至少两个，且均为积极情绪，则获取单帧情绪对应的汇总情绪值，将汇总情绪值较大对应积极情绪作为目标情绪。例如，视频数据中包含20帧待识别图像，15帧单帧情绪为喜悦，15帧单帧情绪为高兴，则获取喜悦对应的汇总情绪值若为17，高兴对应的汇总情绪值若为15，则将喜悦作为目标情绪。

步骤S41-S43中，采用预先训练好的微表情识别模型对每一待识别图像进行识别，获取每一待识别图像对应的目标面部动作单元，实现目标面部动作单元的确定，以提高目标情绪的获取效率。根据每一待识别图像对应的目标面部动作单元查找微表情评估表，以获取与每一待识别图像对应的单帧情绪。依据至少两帧待识别图像对应的单帧情绪，快速获取与视频数据相对应的目标情绪，以实现对目标情绪的确定，获取方法简单快速，以提高辅助发音系统转换速度。

在一实施例中，如图6所示，步骤S41，即采用预先训练好的微表情识别模型对每一待识别图像进行识别，获取每一待识别图像对应的目标面部动作单元，具体包括如下步骤：

S411：采用人脸关键点算法对每一待识别图像进行人脸识别，获取每一待识别图像对应的人脸关键点。

其中，人脸关键点算法可以是但不限于Ensemble of Regression Tress(简称ERT)算法、 SIFT(scale-invariant feature transform)算法，SURF(Speeded Up RobustFeatures)算法， LBP(Local Binary Patterns)算法和HOG(Histogram of OrientedGridients)算法。本实施例中，采用ERT算法，对每一待识别图像进行人脸识别，以获取到每一待识别图像对应的人脸关键点。其中，ERT算法是一种基于回归的方法，ERT算法用公式表示如下：其中，为第t+1次迭代所获得的待识别图像的特征点的形状或坐标，t表示级联序号，为预测出图像的特征点的形状或坐标，I为回归器输入的待识别图像，r_t表示t级的回归器，每个回归器由很多棵回归树(tree)组成，通过训练可获得回归树，通过回归树获取到每一待识别图像对应的人脸关键点，具体可以是77个人脸关键点。

S412：采用特征提取算法对每一待识别图像对应的人脸关键点进行特征提取，获取人脸关键点对应的局部特征。

其中，特征提取算法可以CNN(Convolutional Neural Network，卷积神经网)算法，通过CNN算法提取人脸关键点位置的局部特征，具体是根据面部动作单元对应的位置，提取局部特征。其中，CNN算法是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，可以快速高效进行图像处理。在本实施例中，采用预先训练好的卷积神经网络，快速地提取人脸关键点对应的局部特征。

具体地，将每一待识别图像对应的人脸关键点，通过若干个卷积核进行卷积运算，卷积后的结果为人脸检测点对应的局部特征。具体是通过公式进行卷积运算，以获取到局部特征。其中，y为输出的局部特征，x为一个大小为(M，N)的二维输入向量，即由77个人脸关键点的坐标所形成，w_ij是大小为I*J卷积核，b为偏置，大小为M*N，激活函数用f表示，每个卷积核均与上一层的输入待识别图像的人脸关键点进行卷积操作，每个卷积核都会有一个对应的局部特征，卷积核中权值共享，参数个数大大缩减，极大地提升了网络地训练速度。

进一步地，将人脸关键点输入到预设的卷积神经网络中进行识别后，可得到的面部动作单元对应的局部特征。例如，AU1、AU2、AU5和AU26，即内眉上扬、外眉上扬、上眼睑上扬和下颚张开对应的局部特征。本实施例中，采用卷积神经网络对待识别图像中人脸关键点的局部特征进行提取，以便后续根据局部特征确定目标面部动作单元，并根据识别到的目标面部动作单元来确定用户的情绪。在本提案中，相对于LBP-TOP算子，使用卷积神经网络进行识别的运算速度更快，且识别精度更高。

S413：采用预先训练好的分类器对局部特征进行识别，获取与每一待识别图像对应的目标面部动作单元。

具体地，通过预先训练好的微表情识别模型中每一SVM分类器对局部特征进行识别，其中，SVM分类器与可识别的面部动作单元的数量相同，即可识别的面部动作单元为54个，那么预先训练好的SVM分类器为54个，通过将局部特征输入至对应的SVM分类器中，获取到概率值，将获取到的概率值与预设阈值进行对比，将大于预设阈值的概率值对应的面部动作单元作为与待识别图像对应的目标面部动作单元，以获取到与待识别图像对应的所有目标面部动作单元。

步骤S411-S413中，采用人脸关键点算法对每一待识别图像进行人脸识别，获取每一待识别图像对应的人脸关键点，采用特征提取算法对人脸关键点进行特征提取，获取人脸关键点对应的局部特征，采用预先训练好的分类器对局部特征进行识别，以快速获取到每一待识别图像对应的目标面部动作单元，实现目标面部动作单元的确定，以提高辅助发音系统转换效率。

在一实施例中，步骤S42中，根据每一待识别图像对应的目标面部动作单元查找微表情评估表，获取与每一待识别图像对应的单帧情绪，具体包括如下步骤：

(1)根据每一待识别图像对应的目标面部动作单元，采用预设的微表情评分标准进行评分，获取与每一目标面部动作单元对应的动作情绪值。

其中，微表情评分标准是是预先配置的评分标准，微表情评分标准中每一目标面部动作单元对应一动作情绪值。例如，AU1对应的动作情绪值为2，AU2对应的动作情绪值为1，AU5对应的动作情绪值为3，AU26对应的动作情绪值为4。

具体地，服务端根据每一待识别图像对应的所有目标面部动作单元查找预设的微表情评分标准，获取与每一目标面部动作单元对应的动作情绪值。通过预先获取到每一待识别图像对应的每一目标面部动作单元对应的动作情绪值，以便后续根据每一目标面部动作单元对应的动作情绪值确定单帧情绪。

(2)统计待识别图像中每一目标面部动作单元对应的动作情绪值，获取每一待识别图像对应的汇总情绪值。

其中，汇总情绪值是指与待识别图像对应的所有目标面部动作单元的动作情绪值之和。

具体地，服务端预先获取到每一待识别图像对应的目标面部动作单元的动作情绪值，并对每一待识别图像对应的所有目标面部动作单元的动作情绪值进行统计，获取每一待识别图像对应的汇总情绪值。例如，某一待识别图像对应的目标面部动作单元为AU1、AU2、 AU5和AU26，AU1对应的动作情绪值为2，AU2对应的动作情绪值为1，AU5对应的动作情绪值为3，AU26对应的动作情绪值为4，统计所有目标面部动作单元的动作情绪值，获取到的该待识别图像对应的汇总情绪值为10。

(3)根据每一待识别图像对应的汇总情绪值查找微表情评估表，获取与每一待识别图像对应的单帧情绪。

其中，微表情评估表是指预先配置的汇总情绪值与情绪的对应关系，例如，3-8对应的情绪为平静，8-12对应的情绪为惊讶，12-15对应的情绪为高兴等。单帧情绪是指与待识别图像对应的情绪，每一待识别图像对应一单帧情绪。需要说明的是，微表情评估表中通过汇总情绪值对应的情绪应当与语音发音模板中配置情绪相同，避免根据目标情绪未查找到对应的目标发音模板，提高目标发音模板的获取准确率。

具体地，服务端获取每一待识别图像对应的汇总情绪值，并根据汇总情绪值查找微表情评估表，获取与每一待识别图像对应的单帧情绪。例如，某一待识别图像对应的汇总情绪值为10，根据汇总情绪值10查找表情评估表，获取到对应的情绪为惊讶，则将惊讶作为该待识别图像对应的单帧情绪，实现对用户发送文字数据时的情绪进行确定。

步骤S43中，即依据至少两帧待识别图像对应的单帧情绪，获取与视频数据相对应的目标情绪，具体包括如下步骤：

(4)统计至少两帧待识别图像对应的单帧情绪的数量，将最大数量对应的单帧情绪作为与视频数据相对应的目标情绪。

具体地，若所有待识别图像对应的单帧情绪相同，则最大数量对应的单帧情绪为相同的单帧情绪，并将该单帧情绪作为与视频数据相对应的目标情绪。若至少两帧待识别图像对应的单帧情绪不同，则统计每一单帧情绪对应的数量，将最大数量对应的单帧情绪作为与视频数据相对应的目标情绪。例如，视频数据中包含20帧待识别图像，15帧单帧情绪为惊讶，5帧单帧情绪为平静，那么将最大数量对应的单帧情绪惊讶作为目标情绪，以实现对目标情绪的确定，提高目标情绪的获取准确性。若最大数量对应的单帧情绪为至少两个，则将积极情绪对应的单帧情绪作为目标情绪。若最大数量对应的单帧情绪为至少两个，且均为积极情绪，则获取单帧情绪对应的汇总情绪值，将汇总情绪值较大对应积极情绪作为目标情绪。

在一实施例中，如图7所示，在步骤S50之前，即在基于目标年龄、目标性别和目标情绪查找数据库，获取对应的目标发音模板的步骤之前，基于图像识别的辅助发音方法还包括：

S501：获取发音模板配置请求，发音模板配置请求中包含配置年龄、配置性别和配置情绪。

其中，发音模板配置请求是指用户端向服务端发送的配置请求。获取用户端发送的发音模板配置请求，其中，发音模板配置请求中包含配置年龄、配置性别和配置情绪。其中，配置年龄具体可以是预先配置的年龄段，例如，15岁以下，15-20岁，20-35岁，35-60岁，以及60岁以上。配置性别为男性和女性。配置情绪可以分为伤心、害怕、恐惧、愤怒、平静、惊讶和快乐等。

S502：将每一配置年龄、每一配置性别和每一配置情绪进行组合，配置与每一组合相对应的配置发音模板，并将组合和配置发音模板存储在数据库中。

具体地，将每一配置年龄、每一配置性别和每一配置情绪进行组合。例如，配置年龄为15岁以下、配置性别为男性，配置情绪为伤心作为一个组合，配置年龄为15岁以下、配置性别为女性，配置情绪为伤心作为一个组合等，分别为每一组合配置对应的配置发音模板。其中，配置发音模板可以是与组合相符的发音人预录语音，以确定该组合对应语速、语量和韵律等。为每一组合配置对应的配置发音模板，并将该组合与配置发音模板存储在数据库中，以便后续根据目标年龄、目标性别和目标情绪查找数据库，获取相对应的组合，以将该组合对应的配置发音模板作为目标发音模板，提高辅助发音系统的发准确率，以完善辅助发音系统。

步骤S501-S502中，对发音模板配置请求中的配置年龄、配置性别和配置情绪进行组合，配置与每一组合相对应的配置发音模板，并将组合和配置发音模板存储在数据库中，以提高辅助发音系统的转换准确率，使得语音播报更加符合用户需要表达的意思。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于图像识别的辅助发音装置，该基于图像识别的辅助发音装置与上述实施例中基于图像识别的辅助发音装置一一对应。如图8所示，该基于图像识别的辅助发音装置包括数据获取模块10、目标年龄获取模块20、目标性别获取模块、目标情绪获取模块40标发音模板获取模块50和语音播报模块60。各功能模块详细说明如下：

数据获取模块10，用于获取文字数据和与文字数据对应的视频数据，视频数据包含至少两帧待识别图像。

目标年龄获取模块20，用于采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标年龄。

目标性别获取模块30，用于采用预先训练好的性别分类器对至少两帧待识别图像进行识别，获取与视频数据对应的目标性别。

目标情绪获取模块40，用于采用预先训练好的微表情识别模型对至少两帧待识别图像进行识别，获取与视频数据相对应的目标情绪。

标发音模板获取模块50，用于基于目标年龄、目标性别和目标情绪查找数据库，获取对应的目标发音模板。

语音播报模块60，用于依据目标发音模板，采用TTS技术对文字数据进行语音转换，获取与目标发音模板相对应的语音数据，基于语音数据进行语音播报。

在一实施例中，目标年龄获取模块20包括识别年龄获取单元、识别数量获取单元和目标年龄确定单元。

识别年龄获取单元，用于采用预先训练好的年龄分类器对至少两帧待识别图像进行识别，获取每一待识别图像对应的识别年龄。

识别数量获取单元，用于将识别年龄按预设的年龄段进行分类，统计每一年龄段对应的识别数量。

目标年龄确定单元，用于将识别数量最多的年龄段确定为目标年龄。

在一实施例中，目标性别获取模块30包括识别性别获取单元、第一目标性别确定单元和第二目标性别确定单元。

识别性别获取单元，用于采用预先训练好的性别分类器对至少两帧待识别图像进行识别，获取与每一待识别图像对应的识别性别。

第一目标性别确定单元，用于若所有待识别图像对应的识别性别相同，则将识别性别作为目标性别。

第二目标性别确定单元，用于若存在两帧待识别图像对应的识别性别不同，则统计每一识别性别对应的数量，将最大数量对应的识别性别作为目标性别。

在一实施例中，目标情绪获取模块40包括目标面部动作单元获取单元、单帧情绪获取单元和目标情绪确定单元。

目标面部动作单元获取单元，用于采用预先训练好的微表情识别模型对每一待识别图像进行识别，获取每一待识别图像对应的目标面部动作单元。

单帧情绪获取单元，用于根据每一待识别图像对应的目标面部动作单元查找微表情评估表，获取与每一待识别图像对应的单帧情绪。

目标情绪确定单元，用于依据至少两帧待识别图像对应的单帧情绪，获取与视频数据相对应的目标情绪。

在一实施例中，目标面部动作单元获取单元包括人脸关键点确定子单元、局部特征获取子单元和目标面部动作单元确定子单元。

人脸关键点确定子单元，用于采用人脸关键点算法对每一待识别图像进行人脸识别，获取每一待识别图像对应的人脸关键点。

局部特征获取子单元，用于采用特征提取算法对每一待识别图像对应的人脸关键点进行特征提取，获取人脸关键点对应的局部特征。

目标面部动作单元确定子单元，用于采用预先训练好的分类器对局部特征进行识别，获取与每一待识别图像对应的目标面部动作单元。

在一实施例中，单帧情绪获取单元包括动作情绪值确定子单元、汇总情绪值确定子单元和单帧情绪确定子单元。

动作情绪值确定子单元，用于根据每一待识别图像对应的目标面部动作单元，采用预设的微表情评分标准进行评分，获取与每一目标面部动作单元对应的动作情绪值。

汇总情绪值确定子单元，用于统计待识别图像中每一目标面部动作单元对应的动作情绪值，获取每一待识别图像对应的汇总情绪值。

单帧情绪确定子单元，用于根据每一待识别图像对应的汇总情绪值查找微表情评估表，获取与每一待识别图像对应的单帧情绪。

目标情绪确定单元还包括：统计至少两帧待识别图像对应的单帧情绪的数量，将最大数量对应的单帧情绪作为与视频数据相对应的目标情绪。

在一实施例中，在标发音模板获取模块50之前，基于图像识别的辅助发音装置还包括配置请求获取单元和发音模板配置单元。

配置请求获取单元，用于获取发音模板配置请求，发音模板配置请求中包含配置年龄、配置性别和配置情绪。

发音模板配置单元，用于将每一配置年龄、每一配置性别和每一配置情绪进行组合，配置与每一组合相对应的配置发音模板，并将组合和配置发音模板存储在数据库中。

关于基于图像识别的辅助发音装置的具体限定可以参见上文中对于基于图像识别的辅助发音方法的限定，在此不再赘述。上述基于图像识别的辅助发音装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储配置发音模板、微表情评分标准和微表情评估表等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于图像识别的辅助发音方法。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于图像识别的辅助发音方法的步骤，例如，图2所示的步骤S10至步骤S60，或者，图3至图7所示的步骤。处理器执行计算机程序时实现上述实施例中基于图像识别的辅助发音装置中的各模块的功能，例如，图8所示模块10至模块60的功能。为避免重复，此处不再赘述。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中基于图像识别的辅助发音方法的步骤，例如，图 2所示的步骤S10至步骤S60，或者，图3至图7所示的步骤。该计算机程序被处理器执行时实现上述装置中基于图像识别的辅助发音装置中的各模块的功能，例如，图8所示模块10至模块60的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像识别的辅助发音方法，其特征在于，包括：

2.如权利要求1所述的基于图像识别的辅助发音方法，其特征在于，所述采用预先训练好的年龄分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标年龄，包括：

采用预先训练好的年龄分类器对至少两帧所述待识别图像进行识别，获取每一所述待识别图像对应的识别年龄；

将所述识别年龄按预设的年龄段进行分类，统计每一所述年龄段对应的识别数量；

将所述识别数量最多的年龄段确定为所述目标年龄。

3.如权利要求1所述的基于图像识别的辅助发音方法，其特征在于，所述采用预先训练好的性别分类器对至少两帧所述待识别图像进行识别，获取与所述视频数据对应的目标性别，包括：

采用预先训练好的性别分类器对至少两帧所述待识别图像进行识别，获取与每一所述待识别图像对应的识别性别；

若所有所述待识别图像对应的识别性别相同，则将所述识别性别作为目标性别；

若存在两帧所述待识别图像对应的识别性别不同，则统计每一所述识别性别对应的数量，将最大数量对应的识别性别作为目标性别。

4.如权利要求1所述的基于图像识别的辅助发音方法，其特征在于，所述采用预先训练好的微表情识别模型对至少两帧所述待识别图像进行识别，获取与所述视频数据相对应的目标情绪，包括：

采用预先训练好的微表情识别模型对每一所述待识别图像进行识别，获取每一所述待识别图像对应的目标面部动作单元；

根据每一所述待识别图像对应的目标面部动作单元查找微表情评估表，获取与每一所述待识别图像对应的单帧情绪；

依据至少两帧所述待识别图像对应的单帧情绪，获取与所述视频数据相对应的目标情绪。

5.如权利要求4所述的基于图像识别的辅助发音方法，其特征在于，所述采用预先训练好的微表情识别模型对每一所述待识别图像进行识别，获取每一所述待识别图像对应的目标面部动作单元，包括：

采用人脸关键点算法对每一所述待识别图像进行人脸识别，获取每一所述待识别图像对应的人脸关键点；

采用特征提取算法对每一所述待识别图像对应的人脸关键点进行特征提取，获取所述人脸关键点对应的局部特征；

采用预先训练好的分类器对所述局部特征进行识别，获取与每一所述待识别图像对应的目标面部动作单元。

6.如权利要求4所述的基于图像识别的辅助发音方法，其特征在于，所述根据每一所述待识别图像对应的目标面部动作单元查找微表情评估表，获取与每一所述待识别图像对应的单帧情绪，包括：

根据每一所述待识别图像对应的目标面部动作单元，采用预设的微表情评分标准进行评分，获取与每一所述目标面部动作单元对应的动作情绪值；

统计所述待识别图像中每一所述目标面部动作单元对应的动作情绪值，获取每一所述待识别图像对应的汇总情绪值；

根据每一所述待识别图像对应的汇总情绪值查找微表情评估表，获取与每一所述待识别图像对应的单帧情绪；

所述依据至少两帧所述待识别图像对应的单帧情绪，获取与所述视频数据相对应的目标情绪，包括：

统计至少两帧所述待识别图像对应的单帧情绪的数量，将最大数量对应的单帧情绪作为与所述视频数据相对应的目标情绪。

7.如权利要求1所述的基于图像识别的辅助发音方法，其特征在于，在所述基于所述目标年龄、所述目标性别和所述目标情绪查找数据库，获取对应的目标发音模板的步骤之前，所述基于图像识别的辅助发音方法还包括：

获取发音模板配置请求，所述发音模板配置请求中包含配置年龄、配置性别和配置情绪；

将每一所述配置年龄、每一所述配置性别和每一所述配置情绪进行组合，配置与每一组合相对应的配置发音模板，并将所述组合和所述配置发音模板存储在数据库中。

8.一种基于图像识别的辅助发音装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于图像识别的辅助发音方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于图像识别的辅助发音方法的步骤。