CN113163155A

CN113163155A - 用户头像生成方法、装置、电子设备及存储介质

Info

Publication number: CN113163155A
Application number: CN202110480409.8A
Authority: CN
Inventors: 陈珊; 成小全; 张哲�; 张丽娟; 顾俊俊
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-07-23
Anticipated expiration: 2041-04-30
Also published as: CN113163155B

Abstract

本发明提供一种用户头像生成方法、装置、电子设备及存储介质；方法包括：根据会议的主题确定用户头像组；获取用户在会议中的语音数据，根据所述用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息；根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像。本发明提供的用户头像生成方法、装置、电子设备及存储介质，通过样本用户的语音数据与样本用户的性别信息，训练得到多级决策树形式的性别识别模型，利用该模型可基于用户的语音数据识别用户的性别，具有识别准确的优点。

Description

用户头像生成方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种用户头像生成方法、装置、电子设备及存储介质。

背景技术

在视频会议时，当参会人数较多，或参会者之间不熟识时，部分参会人员不愿意开启摄像头，从而不会以摄像头采集的真实头像与会。在这种情况下，会为不以真实头像参会的参会者设置虚拟头像。

在现有技术中，通常以人工方式为参会者设置虚拟头像。例如，将默认头像作为参会者的头像，如以某一卡通人物作为参会者的头像；以随机方式生成参会者的头像，如从图片库中随机选择一个图片作为参会者的头像。在某些情况下，甚至不为参会者设置头像。

现有技术中的参会者虚拟头像生成方法所生成的头像无法反映会议的主题，具有头像风格单调、不同参会者头像容易重合等问题。此外，采用随机方式生成的头像常常与参会者的性别不同，用户体验较差。

发明内容

针对现有技术存在的问题，本发明提供一种用户头像生成方法、装置、电子设备及存储介质。

本发明提供一种用户头像生成方法，包括：

根据会议的主题确定用户头像组；

获取用户在会议中的语音数据，根据所述用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息；

根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像。

根据本发明提供的一种用户头像生成方法，所述根据所述用户在会议中的语音数据得到用户的性别信息，包括：

将所述用户在会议中的语音数据输入性别识别模型，得到用户的性别信息；其中，

所述性别识别模型是基于样本用户的语音数据以及样本用户的性别信息训练得到的；

所述性别识别模型为性别识别多级决策树，所述性别识别多级决策树包括第一决策树群、第二决策树群以及第三决策树群；其中，第一决策树群是基于样本用户的语音数据的均值频率以及样本用户的性别信息训练得到的；第二决策树群是基于样本用户的语音数据的频率标准差以及样本用户的性别信息训练得到的；第三决策树群是基于样本用户的语音数据的中间频率以及样本用户的性别信息训练得到的。

根据本发明提供的一种用户头像生成方法，所述根据所述用户在会议中的语音数据得到用户在会议中的情感信息，包括：

将所述用户在会议中的语音数据输入情感识别模型，得到用户在参会时的情感信息；其中，

所述情感识别模型是基于样本用户的语音数据以及样本用户的情感信息训练得到的；

所述情感识别模型为情感识别多级决策树，所述情感识别多级决策树包括第四决策树群、第五决策树群以及第六决策树群；其中，第四决策树群是基于样本用户的语音数据的均值频率以及样本用户的情感信息训练得到的；第五决策树群是基于样本用户的语音数据的频率标准差以及样本用户的情感信息训练得到的；第六决策树群是基于样本用户的语音数据的中间频率以及样本用户的情感信息训练得到的。

根据本发明提供的一种用户头像生成方法，所述根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像，包括：

根据用户的性别信息，从所述用户头像组中选取第一头像；

根据用户在会议中的情感信息，从所述用户头像组中选取第二头像；

融合所述第一头像与所述第二头像，得到用户的会议头像。

根据本发明提供的一种用户头像生成方法，在根据会议的主题确定用户头像组之前，方法还包括：

获取多个第一样本用户的语音数据以及所述多个第一样本用户的性别信息；

对所述多个第一样本用户的语音数据进行特征提取，所提取的特征包括均值频率、频率标准差或中间频率；

根据所提取的特征对所述多个第一样本用户的性别信息进行统计，得到所述多个第一样本用户在频谱不同频段内的性别分布情况；

根据所述多个第一样本用户在频谱不同频段内的性别分布情况，构建第一决策树群、第二决策树群以及第三决策树群；

采用多个第二样本用户的语音数据以及所述多个第二样本用户的性别信息训练第一决策树群、第二决策树群以及第三决策树群，得到训练后的性别识别多级决策树。

根据本发明提供的一种用户头像生成方法，所述第一决策树群、第二决策树群以及第三决策树群各自有多组，在所述采用多个第二样本用户的语音数据以及所述多个第二样本用户的性别信息训练所述第一决策树群、第二决策树群以及第三决策树群之前，还包括：

采用多个第三样本用户的语音数据以及所述多个第三样本用户的性别信息为多组第一决策树群、第二决策树群以及第三决策树群计算决策值；

根据所述决策值以及预先设定的条件，从所述多组第一决策树群、第二决策树群以及第三决策树群中确定待训练的第一决策树群、第二决策树群以及第三决策树群。

获取多个第四样本用户的语音数据以及所述多个第四样本用户的情感信息；

对所述多个第四样本用户的语音数据进行特征提取，所提取的特征包括均值频率、频率标准差或中间频率；

根据所提取的特征对所述多个第四样本用户的情感信息进行统计，得到所述多个第四样本用户在频谱不同频段内的情感分布情况；

根据所述多个第四样本用户在频谱不同频段内的情感分布情况，构建第四决策树群、第五决策树群以及第六决策树群；

采用多个第五样本用户的语音数据以及所述多个第五样本用户的情感信息训练所述第四决策树群、第五决策树群以及第六决策树群，得到所述情感识别多级决策树。

本发明还提供了一种用户头像生成装置，包括：

用户头像组确定模块，用于根据会议的主题确定用户头像组；

性别信息与情感信息确定模块，用于获取用户在会议中的语音数据，根据所述用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息；

会议头像确定模块，用于根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如所述用户头像生成方法的步骤。

本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如所述用户头像生成方法的步骤。

本发明实施例提供的用户头像生成方法、装置、电子设备及存储介质，通过样本用户的语音数据与样本用户的性别信息，训练得到多级决策树形式的性别识别模型，利用该模型可基于用户的语音数据识别用户的性别，具有识别准确的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的用户头像生成方法的流程图；

图2为本发明提供的用户头像生成方法中所涉及的性别识别模型的训练过程的流程图；

图3为本发明提供的用户头像生成方法的一个实施例中所涉及的均值频率统计图；

图4为本发明提供的用户头像生成方法中所涉及的决策值的示意图；

图5为本发明提供的用户头像生成装置的示意图；

图6为本发明所涉及的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的用户头像生成方法的流程图，如图1所示，本发明提供的用户头像生成方法，包括：

步骤101、根据会议的主题确定用户头像组。

在本实施例中，将以视频会议为例，对本发明的方法做进一步说明。本领域技术人员可以理解，本发明的方法也可以应用于其他场合，如音频会议。

在本发明实施例中，用户头像组包括多个头像，这些头像是视频会议参会者的候选头像。在之后的步骤中，视频会议参会者从用户头像组内的候选头像中确定最终的头像。

根据会议的主题确定用户头像组是指用户头像组应当与会议的主题相关。例如，某一视频会议为商务会议，则选出商务风格的用户头像组。

会议的主题可根据会议的信息确定，如抓取视频会议的标题，对视频会议的标题进行语义识别，从而确定视频会议的主题。

用户头像组可从预先设置的头像库中选取，如在头像库中预先设置多个候选的用户头像组，并为这些候选的用户头像组设置属性信息，所述属性信息包括商务风格、休闲风格、体育风格等。根据视频会议的主题确定用户头像组时，可将视频会议的主题与头像库中所包含的各个候选的用户头像组的属性信息进行比对，将属性信息与视频会议主题一致的用户头像组作为与视频会议相关的用户头像组。

用户头像组中的各个用户头像包括用户头像的图片信息、用户头像的性别信息以及用户头像的情感信息。所述性别信息包括男或女，所述情感信息包括喜悦、平静、愤怒等人类的感情。

步骤102、获取用户在会议中的语音数据，根据所述用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息。

在本实施例中，可通过麦克风等语音采集设备获得用户在会议中的语音数据。

由于用户的性别或用户的情感能够通过用户声音的频率、振幅等特征反映出来，因此在本发明中，根据用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息。

根据用户的语音数据得到用户的性别信息与情感信息的实现方式有多种，在本实施例中不对其实现方式进行限定。在本发明的其他实施例中，将对通过模型识别的实现方式做详细的说明。

步骤103、根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像。

根据步骤101的描述可以知道，用户头像组中的各个用户头像包含了用户头像的性别信息以及用户头像的情感信息，因此，可根据用户的性别信息、用户在会议中的情感信息，从用户头像组中选取对应的头像，然后将头像进行融合，得到用户的会议头像。

具体的说，本步骤可包括：

根据用户的性别信息，从所述用户头像组中选取第一头像；

融合所述第一头像与所述第二头像，得到用户的会议头像。

在融合第一头像与所述第二头像时，可采用如下公式：

D＝α×D₁+(1-α)×D₂；

其中，表示最终得到的用户会议头像的像素值，D₁表示第一头像的像素值，D₂表示第二头像的像素值，α是一个权重值，其取值范围为[0,1]，其大小可根据实际需要设定。

本发明提供的用户头像生成方法通过用户的语音数据判断用户的性别与用户在会议中的情感信息，进而根据用户的性别与用户在会议中的情感信息生成用户的会议头像，所生成的用户会议头像能够正确地反映用户性别以及用户在会议中的情感信息，具有个性化的特点，使得不同用户的会议头像不容易重合。

基于上述任一实施例，在本实施例中，所述根据所述用户在会议中的语音数据得到用户的性别信息，包括：

所述性别识别模型是基于样本用户的语音数据以及样本用户的性别信息训练得到的。

在之前的实施例中，未对如何根据所述用户在会议中的语音数据得到用户的性别信息的实现方式做详细说明。在本实施例中，将对性别识别模型的实现方式做详细说明。

在本实施例中，性别识别模型为性别识别多级决策树，所述性别识别多级决策树包括第一决策树群、第二决策树群以及第三决策树群；其中，第一决策树群是基于样本用户的语音数据的均值频率以及样本用户的性别信息训练得到的；第二决策树群是基于样本用户的语音数据的频率标准差以及样本用户的性别信息训练得到的；第三决策树群是基于样本用户的语音数据的中间频率以及样本用户的性别信息训练得到的。

在本实施例中，将所述用户在会议中的语音数据输入性别识别模型，得到用户的性别信息，具体包括：

对用户在会议中的语音数据进行特征提取，得到所述语音数据的均值频率、频率标准差以及中间频率；将语音数据的均值频率、频率标准差以及中间频率分别输入性别识别模型中的第一决策树群、第二决策树群以及第三决策树群，综合所述第一决策树群、第二决策树群以及第三决策树群的决策结果，确定用户的性别信息。

本发明提供的用户头像生成方法通过多级决策树形式的性别识别模型，可根据用户的语音数据识别用户的性别，具有识别准确的优点。

基于上述任一实施例，图2为本发明提供的用户头像生成方法中所涉及的性别识别模型的训练过程的流程图，如图2所示，在根据会议的主题确定用户头像组之前，本发明的方法还包括：

步骤201、获取多个第一样本用户的语音数据以及所述多个第一样本用户的性别信息。

在实施例中，第一样本用户的语音数据为声音文件，如WAV格式的声音文件，MIDI格式的声音文件，MP3格式的声音文件等。

第一样本用户应当具有一定的数量规模，如第一样本用户可以有100个，这些样本用户在性别、年龄、民族、地域等多个方面存在差异。第一样本用户的数量仅为举例之用，在实际应用中可不限于该数量。

在本步骤中，除了要获取第一样本用户的语音数据，还要获取第一样本用户的性别信息。这些性别信息在之后的步骤中会得到应用。

步骤202、对所述多个第一样本用户的语音数据进行特征提取，所提取的特征包括均值频率、频率标准差或中间频率。

在本实施例中，第一样本用户的语音数据为声音文件，在对声音文件进行特征提取时，可首先对声音文件进行分帧操作，然后对每一帧做傅里叶变换，最终从傅里叶变换的结果中提取特征。

在本实施例中，需要从声音文件中提取以下三类特征：均值频率(MeanFrequency)、频率标准差(Standard Deviation of Frequency)以及中间频率(MedianFrequency)。

由于不同性别、不同情感会在声音的频率、振幅方面有所区别，因此在本实施例中，从样本数据中提取上述三类特征用于后续的模型训练。

如何从音频帧中提取上述三类特征是本领域技术人员的公知常识，因此不在此处重复。

步骤203、根据所提取的特征对所述多个第一样本用户的性别信息进行统计，得到所述多个第一样本用户在频谱不同频段内的性别分布情况。

在之前的步骤中已经提到，在本实施例中，从声音文件中提取的特征有三类，分别为均值频率、频率标准差和中间频率。

在本实施例中，以均值频率为例，对本步骤的实现做进一步说明。

首先采集100个第一样本用户的语音数据的均值频率，形成如图3所示的均值频率统计图。该图中的1代表女性，2代表男性。这一统计图能够反映不同性别的第一样本用户的均值频率分布情况。

然后，对均值频率的频谱进行分段，根据前述统计数据计算各个频段内的性别比例值。

对频谱进行分段具有多种实现方式，如对频谱进行平均划分，或根据预先得到的统计数据的分布规律对频谱进行划分，或将平均划分与按照统计数据的分布规律进行划分相结合。

对频谱进行分段后，可将之前步骤得到的统计数据映射到对应的频段中，进而计算各个频段内的性别比例值。

例如，表1—表3为根据图3所示的统计数据所得到的均值频率表。其中，表1为对各个成员的均值频率以及性别进行记录的表格。例如，成员1的均值频率为350，性别为女(用数值1表示)；成员2的均值频率为356，性别为女(用数值1表示)。

表1

均值频率	性别
		350	1
356	1
		362	1
368	1
		380	1
399	1
		231	2
236	2
		224	2
230	2
		……	……

在表1的基础上，对各个频段内的性别比例值进行计算，得到表2。

表2

频段	样本数量	样本比例	样本中男性比例	样本中女性比例
					200-219Hz	4	4/100	100/100	0
220-250Hz	36	36/100	35/36	1/35
					250-300Hz	9	9/100	5/9	4/9
300-350Hz	5	5/100	1/5	4/5
					350-400Hz	46	46/100	46/46	0

对表2的结果做进一步概况，可得到表3。

表3

	样本中男性比例	样本中女性比例
			200-219Hz	100％	0
220-250Hz	97％	3％
			250-300Hz	55％	44％
300-350Hz	20％	80％
			350-400Hz	100％	0

接着，根据之前的计算结果，对性别比例未达到预设的性别比例阈值的频段做进一步划分，直至频段内的第一样本用户的性别比例值达到预设的性别比例阈值。

形成前述统计表格后，由于在部分频段中，两种性别的比例值接近，因此需要对相应频段进行进一步的细分。如在前述的表3中，在均值频率范围为250-300Hz的频段内，两种性别比例相差较小，因此需要对该频段做进一步划分，并重新统计新划分频段内第一样本用户的性别比例，得到只与新划分的频段相关的统计表格。对新得到的频段内的第一样本用户的性别比例值是否达到预设的性别比例阈值进行判断，如果没有达到，继续对频段做进一步划分，直至频段内的第一样本用户的性别比例值达到预设的性别比例阈值。

在实施例中，可设定当某一性别比例超过80％时不再对频段做进一步细分。在其他实施例中，也可将用于描述频段细分终止条件的阈值(即性别比例阈值)设定为其他值，如90％。

步骤204、根据所述多个第一样本用户在频谱不同频段内的性别分布情况，构建第一决策树群、第二决策树群以及第三决策树群。

从之前步骤的描述可以知道，对统计数据有多次分段操作。每一个频段即为一个叶子节点。例如表1-表3所描述的第一次分段操作对应5个频段，即为5个叶子节点。

一次频段划分所得到的第一样本用户对应一棵初级决策树，如根据前述表3即可得到一棵初级决策树。在第一棵初级决策树的基础上，进行频段细分形成第二统计表格，所述第二统计表格对应第二棵初级决策树。依次类推，多次细分后形成第一决策树群。

需要说明的是，若对于第一样本用户进行频段划分的次数只有一次，则该样本数据的决策树群中只有一颗决策树。

每次添加一棵决策树，其实是学习一个新函数f(x)，也就是增加一步去拟合上次预测的残差。本申请的目标是要使得决策树群的预测值

尽量接近真实值Obji(真实值可通过采集视频会议的音视频输入信息得到)。假设训练完成得到k棵决策树，第一决策树群的表达式为：

......

其中，f_k表示第k棵决策树模型，t表示决策树的叶子节点数量，f(x)对应决策树的结构函数。

以上是对第一决策树群的创建过程的描述。参考上述步骤，还可实现对第二决策树群以及第三决策树群的创建。

步骤205、采用多个第二样本用户的语音数据以及所述多个第二样本用户的性别信息训练第一决策树群、第二决策树群以及第三决策树群，得到训练后的性别识别多级决策树。

在之前的步骤中，已经构建了第一决策树群、第二决策树群以及第三决策树群，在本步骤中，需要对这些决策树群做进一步的训练。在训练时，可采用不同于第一样本用户的第二样本用户的语音数据以及性别信息。

在训练各个决策树群时，初始时可为不同类型的训练特征(如均值频率、频率标准差和中间频率)设置相同的权重值，如各设置为1/3；然后将这些训练特征作为训练样本点训练决策树群。一次训练过程结束后，如果没有满足迭代终止条件(如预测值与实际值偏差小于预设的阈值)，需要为下一次训练构建训练集。

在为下一次训练构建训练集时，会根据前一次训练过程中的预测结果调整训练样本点的权重。具体包括：根据决策树群的预测值与实际值相符率是否达到预设阈值，确定某个训练样本点是否已经被准确地分类；对于已经被准确地分类的训练样本点，在为下一次训练构建训练集时，它的权值被降低，如以一个百分点为步长来降低权值；相反，如果某个训练样本点没有被准确地分类，在为下一次训练构建训练集时，它的权值就得到提高，如以一个百分点为步长来提高权值。

重复上述训练迭代过程，直至满足训练的迭代终止条件。

第一决策树群已经可以用于实现性别的判定。例如，参考前述表3，当某一用户所采集的输入语音信息的均值频率在200-219Hz分段内时，则该用户被判定为男性，若在350-400Hz分段内时，则该用户被判定为女性，若在220-250Hz分段内时，则该用户被判定为男性。但第一决策树群所输出的结果在准确度上存在一定的不足，容易发生误判的情况。因此，在本发明中，在构建并训练第一决策树群、第二决策树群和第三决策树群后，需要将不同类型的决策树群组合成性别识别多级决策树，利用性别识别多级决策树实现对用户的性别识别。

在本实施例中，在将训练完成的第一决策树群，第二决策树群以及第三决策树群组合起来，得到训练完成的性别识别多级决策树时，可根据不同决策树群的分类误差率设置权重值，误差率低的决策树群在性别识别多级决策树中所占的权重较大，反之，误差率高的决策树群在性别识别多级决策树中所占的权重较小。具体权重值可根据实际需要设定，在本实施例中不做限定。

以上是对性别识别多级决策树的训练过程的描述。训练得到的性别识别多级决策树也就是性别识别模型。利用该性别识别模型可根据用户的语音数据识别用户的性别。

本发明提供的用户头像生成方法通过样本用户的语音数据与样本用户的性别信息，训练得到多级决策树形式的性别识别模型，利用该模型可基于用户的语音数据识别用户的性别，具有识别准确的优点。

可选的，在本实施例中，所述第一决策树群、第二决策树群以及第三决策树群各自有多组，在所述采用多个第二样本用户的语音数据以及所述多个第二样本用户的性别信息训练所述第一决策树群、第二决策树群以及第三决策树群之前，还包括：

在之前的实施例中，在描述第一决策树群、第二决策树群以及第三决策树群的构建过程时，并未对它们的数量进行限定。可选的，在构建第一决策树群、第二决策树群以及第三决策树群时，可利用多组样本用户的语音数据与性别信息，构建多组第一决策树群、第二决策树群以及第三决策树群。在本实施例中，可通过计算决策值来评估多组第一决策树群、第二决策树群以及第三决策树群的效果，然后根据预先设定的条件，从所述多组第一决策树群、第二决策树群以及第三决策树群中确定待训练的第一决策树群、第二决策树群以及第三决策树群，从而执行后续的训练过程。

具体包括：选取多个第三样本用户的语音数据以及所述多个第三样本用户的性别信息。显然第三样本用户不同于前述第一样本用户与第二样本用户。例如，选取M组样本，每组样本所包含的样本个数相同。

利用M组样本中的样本数据计算多组第一决策树群、第二决策树群以及第三决策树群的各自决策值，所述决策值可用于判断决策树群的效果。

例如，假设G是其中一个关于布尔概念的有100个样例的集合，它包括50个正例(正例指包含着概念或规则的本质特征和内在联系的例证)E1和50个反例(反例指不包含或只包含了一小部分概念或规则的主要属性和关键特征的例证)E2(如采用记号[50+，50-]来概括这样的数据样例)，那么G相对于这个布尔样例的决策均值A为：

R1＝正例/总值＝50/100；

R2＝反例/总值＝50/100；

决策值A([50+，50-])＝(R1)log2(R1)+(R2)log2(R2)＝1。

图4为本发明提供的用户头像生成方法中所涉及的决策值的示意图，如图4所示，根据上述公式可以知道：

如果G的所有成员属于同一类，则A(E)＝0；

如果G的正反样例数量相等，则A(E)＝1；

如果G的正反样例数量不等，则决策值介于0，1之间。

决策值越接近1，则说明准确度越高，当完全准确时，则A(E)＝1。

根据上述计算方式计算N组数据(即多个第一样本用户的语音数据与性别信息)的A(E)值，最接近1的一组数据所生成的第一决策树群、第二决策树群以及第三决策树群的效果最佳。

通过决策值评估多组第一决策树群、第二决策树群以及第三决策树群的效果后，可根据预设规则选取其中一组第一决策树群、第二决策树群以及第三决策树群做进一步的训练。例如，选取效果最佳的一组第一决策树群、第二决策树群以及第三决策树群做进一步训练。

本发明提供的用户头像生成方法通过对多组第一决策树群、第二决策树群以及第三决策树群的效果进行评估，从而能够得到效果更优的性别识别多级决策树，进而提升对用户性别的识别效果。

基于上述任一实施例，在本实施例中，所述根据所述用户在会议中的语音数据得到用户在会议中的情感信息，包括：

所述情感识别模型是基于样本用户的语音数据以及样本用户的情感信息训练得到的。

在之前的实施例中，未对如何根据所述用户在会议中的语音数据得到用户的情感信息的实现方式做详细说明。在本实施例中，将对情感识别模型的实现方式做详细说明。

在本实施例中，情感识别模型为情感识别多级决策树，所述情感识别多级决策树包括第四决策树群、第五决策树群以及第六决策树群；其中，第四决策树群是基于样本用户的语音数据的均值频率以及样本用户的情感信息训练得到的；第五决策树群是基于样本用户的语音数据的频率标准差以及样本用户的情感信息训练得到的；第六决策树群是基于样本用户的语音数据的中间频率以及样本用户的情感信息训练得到的。

在本实施例中，将所述用户在会议中的语音数据输入情感识别模型，得到用户在参会时的情感信息，具体包括：

对用户在会议中的语音数据进行特征提取，得到所述语音数据的均值频率、频率标准差以及中间频率；将语音数据的均值频率、频率标准差以及中间频率分别输入情感识别模型中的第四决策树群、第五决策树群以及第六决策树群，综合所述第四决策树群、第五决策树群以及第六决策树群的决策结果，确定用户的情感信息。

本发明提供的用户头像生成方法通过多级决策树形式的情感识别模型，可根据用户的语音数据识别用户的情感，具有识别准确的优点。

基于上述任一实施例，在本实施例中，在根据会议的主题确定用户头像组之前，方法还包括：

情感识别多级决策树的具体训练过程与之前实施例中所描述的性别识别多级决策树的具体训练过程并无本质上的区别，因此不在本实施例中重复说明。

本实施例中训练得到的情感识别多级决策树也就是情感识别模型。利用该情感识别模型可根据用户的语音数据识别用户的情感。

还需要说明的是，在构建第四决策树群、第五决策树群以及第六决策树群时，也可以构建多组，然后通过计算决策值的方式从中选择一组作为待训练的第四决策树群、第五决策树群以及第六决策树群。其具体实现过程与根据决策值选取待训练的一组第一决策树群、第二决策树群以及第三决策树群并无本质区别，因此不在此处重复。

本发明提供的用户头像生成方法通过样本用户的语音数据与样本用户的情感信息，训练得到多级决策树形式的情感识别模型，利用该模型可基于用户的语音数据识别用户的情感，具有识别准确的优点。

基于上述任一实施例，图5为本发明提供的用户头像生成装置的示意图，如图5所示，该装置包括：

用户头像组确定模块501，用于根据会议的主题确定用户头像组；

性别信息与情感信息确定模块502，用于获取用户在会议中的语音数据，根据所述用户在会议中的语音数据得到用户的性别信息以及用户在会议中的情感信息；

会议头像确定模块503，用于根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像。

本发明提供的用户头像生成装置通过用户的语音数据判断用户的性别与用户在会议中的情感信息，进而根据用户的性别与用户在会议中的情感信息生成用户的会议头像，所生成的用户会议头像能够正确地反映用户性别以及用户在会议中的情感信息，具有个性化的特点，使得不同用户的会议头像不容易重合。

图6为本发明所涉及的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：

根据会议的主题确定用户头像组；

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图6所示的处理器610、通信接口620、存储器630和通信总线640，其中处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信，且处理器610可以调用存储器630中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

根据会议的主题确定用户头像组；

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

根据会议的主题确定用户头像组；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户头像生成方法，其特征在于，包括：

根据会议的主题确定用户头像组；

2.根据权利要求1所述的用户头像生成方法，其特征在于，所述根据所述用户在会议中的语音数据得到用户的性别信息，包括：

3.根据权利要求1所述的用户头像生成方法，其特征在于，所述根据所述用户在会议中的语音数据得到用户在会议中的情感信息，包括：

4.根据权利要求1所述的用户头像生成方法，其特征在于，所述根据用户的性别信息、用户在会议中的情感信息以及用户头像组，确定用户的会议头像，包括：

根据用户的性别信息，从所述用户头像组中选取第一头像；

融合所述第一头像与所述第二头像，得到用户的会议头像。

5.根据权利要求2所述的用户头像生成方法，其特征在于，在根据会议的主题确定用户头像组之前，方法还包括：

6.根据权利要求5所述的用户头像生成方法，其特征在于，所述第一决策树群、第二决策树群以及第三决策树群各自有多组，在所述采用多个第二样本用户的语音数据以及所述多个第二样本用户的性别信息训练所述第一决策树群、第二决策树群以及第三决策树群之前，还包括：

7.根据权利要求2所述的用户头像生成方法，其特征在于，在根据会议的主题确定用户头像组之前，方法还包括：

8.一种用户头像生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述用户头像生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述用户头像生成方法的步骤。