CN111128190B

CN111128190B - 一种表情匹配的方法及系统

Info

Publication number: CN111128190B
Application number: CN201911412320.7A
Authority: CN
Inventors: 李小波; 李晓军
Original assignee: Hengxin Shambala Culture Co ltd
Current assignee: Hengxin Shambala Culture Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-03-21
Anticipated expiration: 2039-12-31
Also published as: CN111128190A

Abstract

本申请公开了一种表情匹配的方法及系统，其中表情匹配的方法具体包括以下步骤：获取输入视频，提取视频中的输入语音；查看输入语音是否完整；若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情；将对应的人脸表情匹配到输入视频中；输出匹配后带有人脸表情的视频。本申请根据用户的输入语音为对应的任务匹配最合适的表情，提高人脸表情与语音的匹配度，使输出的视频更加生动形象。

Description

一种表情匹配的方法及系统

技术领域

本申请涉及计算机领域，具体地，涉及一种表情匹配的方法及系统。

背景技术

在越来越普及的视频领域中，虚拟形象表情应用是目前一种非常流行的实时应用，广泛实现在多种移动终端上，虚拟形象的表情大部分是通过摄像头采集包含人脸的视频流，实时地对人脸表情进行检测，并应用在虚拟形象(例如卡通形象)中。然而，在将人脸表情应用到虚拟形象中时，存在人脸表情和虚拟形象表情不能精确对照的问题。因此会出现人脸表情和虚拟形象表情不统一，虚拟形象表情和输入语音不统一的问题。

因此，如何有效的进行表情匹配，提高输入语音与人脸表情的匹配度是本领域人员目前急需解决的问题。

发明内容

本申请的目的在于提供一种表情匹配的方法及系统，能够有效的进行表情匹配，提高输入语音与人脸表情的匹配度。

为达到上述目的，本申请提供了一种表情匹配的方法，具体包括以下步骤：获取输入视频，提取视频中的输入语音；查看输入语音是否完整；若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情；将对应的人脸表情匹配到输入视频中；输出匹配后带有人脸表情的视频。

如上的，其中，输入视频包括脸部不存在人物表情的人物形象以及人物的输入语音。

如上的，其中，在对输入的语音进行识别之前，还包括，构建声音音谱库；声音音谱库包括声音区域和表情区域，声音区域中包括预先录入的多个目标语音，表情区域中包括预先录入的多个人脸表情，声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。

如上的，其中，在对输入的语音进行识别过程中，包括以下子步骤：对输入语音进行预处理检测；获取预处理后的输入语音特征；根据输入语音特征，查找声音区域中与输入语音相同的语音。

如上的，其中，在获取输入语音的特征之前，还包括以下子步骤：对预处理后的输入语音进行划分；对划分后的输入语音进行加强处理；获取加强后的输入语音特征；其中输入语音特征E具体表示为：

其中n为输入语音划分后的帧数量，x(m)为划分后且加强的每一帧的语音信号的长度，i为自然数。

如上的，其中，计算目标语音的特征，将目标语音特征与输入语音特征进行差值运算，若二者的特征差值小于指定特征阈值，则两者为同一语音，将目标语音对应的人脸表情匹配到人物形象的脸部区域中。

如上的，其中，将对应的人脸表情匹配到输入视频之前，还包括，计算输入语音的输入特性，根据输入特性调取不同的人脸表情。

一种表情匹配系统，具体包括识别处理器以及输出单元；识别处理器用于执行上述任一项的表情匹配方法；输出单元用于输出匹配后带有人脸表情的视频。

如上的，其中，识别处理器包括以下子模块：提取模块、查看模块、识别获取模块以及匹配模块；其中提取模块，用于获取输入视频，提取视频中的输入语音；查看模块，用于查看输入语音是否完整；识别获取模块，用于若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情；匹配模块，用于将对应的人脸表情匹配到输入视频中。

如上的，其中，识别获取模块还包括以下子模块：预处理模块、特征获取模块以及查找模块；预处理模块，用于对输入语音进行预处理检测；特征获取模块，用于获取预处理后的输入语音特征；查找模块，用于根据输入语音特征，查找声音区域中与输入语音相同的语音。

本申请的有益效果是：能够根据用户的输入语音为对应的任务匹配最合适的表情，提高人脸表情与语音的匹配度，使输出的视频更加生动形象。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的表情匹配的方法流程图；

图2是根据本申请实施例提供的表情匹配的系统的内部结构图；

图3是根据本申请实施例提供的表情匹配的系统的又一内部结构图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及一种识别唱跳节目动作的方法及识别系统。根据本申请，能够根据用户的输入语音为对应的任务匹配最合适的表情，提高人脸表情与语音的匹配度，使输出的视频更加生动形象。

本申请提供了表情匹配的方法，请参考图1，具体包括如下步骤：

步骤S110：获取输入视频，提取视频中的输入语音。

其中输入视频为系统中显示的正在播放的视频画面，输入视频包括人物以及人物的输入语音，其中该人物的脸部为预先抠除脸部表情，有且只有脸部轮廓的脸部。其中预先抠除脸部表情的方式可参考现有技术。

步骤S120：查看输入语音是否完整。

在提取输入视频中的输入语音后，还进行语音完整性的识别，具体地，接收输入语音后，根据数据的传输协议进行输入语音的分析，具体为进行是否存在媒体流数据的分析。

其中预先设定多个指定时间段，若该输入语音中存在媒体流数据，则在第一指定时间段后查看是否依然接收到输入语音，若不存在媒体流数据则流程退出。若在第一指定时间段内未接收到，则说明该输入语音完成输入，执行步骤S130。否则继续接收输入语音并进行媒体流的数据分析，若存在媒体数据流则依然在第二指定时间段内继续接收，否则流程退出。若第二指定时间段未接收到语音则执行步骤S130，否则进行媒体流数据分析。按照上述方式直至完成多个指定时间段的查看。

步骤S130：对输入语音进行识别，获取与输入语音对应的人脸表情。

其中在对输入的语音进行识别之前，还包括，构建声音音谱库。该声音音谱库中，包括声音区域和表情区域，声音区域中包括预先录入的多个目标语音，表情区域中包括预先录入的多个人脸表情。声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。其中一个目标语音对应的多个表情分为一般、良好、优秀三个程度。

示例性地，声音区域中包括的“我简直太高兴了”语音，与表情区域中的一个或多个程度的“笑脸”表情是对应的，声音区域中包括的“我好难过”语音，与表情区域中的一个或多个程度的“难过”表情对应，表情区域中的表情是与对应的声音区域进行配合，达到声音与表情同步的状态。

在对输入语音进行识别的过程中，具体包括以下子步骤：

步骤D1：对输入语音进行预处理检测。

其中预处理检测能够从背景噪声中准确找出输入语音的起始点和终止点，具体地，将输入语音的首尾端的静音切除，降低对后续步骤造成的干扰。

步骤D2：获取预处理后的输入语音特征。

具体地，在获取输入语音的特征之前，还包括以下子步骤：

步骤D210：对预处理后的输入语音进行划分。

由于输入语音的语音信号的准平稳性，使得只有在短时段上才可视为是一个平稳过程，因此需要讲输入语音的语音信号划分为一个一个的短时段，每一个短时段简称为一帧，每一帧具有固定的长度。值得注意的是，将输入语音信号进行帧划分，每一帧的帧尾与下一帧的帧头是重叠的，防止出现语音间断的问题。

步骤D220：对划分后的输入语音进行加强处理。

具体地，其中为了降低每一帧两端的坡度，使每一帧的两端不引起急剧变化而平滑过渡到零，因此需要对每一帧的语音信号进行加强处理，即将原始的帧信号乘以一个加强函数变为加强后的帧信号，具体地，加强后的帧信号x(m)具体表示为：

x(m)＝ε*x′(m) (公式一)

其中ε表示加强函数，x′(m)表示原始帧信号的长度。

步骤D230：获取加强后的输入语音特征。

具体地，获取输入语音的短时能量，即输入语音特征，其中输入语音特征E具体表示为：

其中，n为输入语音帧划分后的帧数量，x(m)为划分后且加强的每一帧的语音信号的长度，i为自然数。

步骤D3：根据输入语音特征，查找声音区域中与输入语音相同的语音。

具体地，其中可根据公式一和二进行声音区域中目标语音的特征计算，将目标语音的特征与输入语音的特征进行比对，查找与输入语音相同的目标语音。若二者的特征差值小于指定特征阈值，则两者为同一语音，则可执行步骤S140。否则流程退出。

其中指定特征阈值为工作人员预先设置并且可被修改，具体数值在此不进行限定。

步骤S140：将对应的人脸表情匹配到输入视频中。

具体地，查找到与输入语音相同的目标语音，则调取与目标语音对应的人脸表情。由于一个目标语音对应多个人脸表情，因此在对应的人脸表情匹配到输入视频中之前，还包括，根据输入语音的特性进行人脸表情的选取。

其中，输入语音中的输入特性表示了输入语音所带有的感情变化，不同的感情变化对应不同的人脸表情程度，因此可根据输入特性的大小选取不同的人脸表情。例如输入语音的“我很高兴”中输入特性较大，则说明人物表现的感情深色彩很强烈，可选取优秀程度的“高兴”表情。若输入特性较小，则选取一般程度的“高兴”表情。

具体地，其中输入语音的输入特性Y具体表示为：

其中，p_j表示声压，Y₀为标准声强，σ为输入语音的语速，log表示对数运算。

若输入语音的输入特性Y小于第一阈值，则说明该输入语音的感情色彩一般，调取对应的一般程度的表情。

若输入语音的输入特性Y大于第一阈值小于第二阈值，则说明该输入语音的感情色彩丰富，则调取对应的良好程度的表情。

若输入语音的输入特性Y大于第二阈值小于第三阈值，则说明该输入语音的感情色彩浓烈，则调取对应的优秀程度的表情。

值得注意的是，第一阈值、第二阈值以及第三阈值为系统预先设定的数值，三者的数值为依次增大，具体数值在此不进行限定。

进一步地，调取到对应的人脸表情后，将该人脸表情复制到输入视频中不具有人脸表情的人物形象的脸部区域中。

其中在将人脸表情复制到输入视频中不具有人脸表情的脸部区域中，若脸部区域出现倾斜的情况，则人脸表情也需要进行倾斜，因此还包括以下子步骤：

步骤Q1：将人脸表情与脸部区域进行每一度的角度对比。

具体地，其中人脸表情与脸部区域对比主要为脸部外轮廓的像素对比。将可旋转0-360度的人脸表情从0度开始与指定旋转角度为0的脸部区域进行对比，再将人脸表情旋转至指定角度为1度，与指定角度为0的脸部区域进行对比，并记录此时二者的相似度，直至完成所有角度的人脸表情与脸部区域的对比。

其中本步骤中涉及图像对比的方法可参考现有技术中多种实施图像对比的方法，本实施例中不进行赘述。

步骤Q2：将人脸表情按照角度对比的结果进行贴合。

具体地，若角度对比中，旋转0-360度的人脸表情从0度开始与指定旋转角度为0的脸部区域的对比相似度大于指定阈值，则按照当前旋转的角度进行人脸表情与脸部区域的贴合。

步骤S150：输出匹配后带有人脸表情的视频。

具体地，将带有人脸表情与同步的输入语音进行输出。

本申请提供了表情匹配系统，如图2所示，具体包括：识别处理器201以及输出单元202。

其中识别处理器201用于对输入语音进行识别，获取与输入语音对应的人脸表情。

具体地，如图3所示，其中识别处理器201具体包括以下子模块：提取模块301、查看模块302、识别获取模块303、匹配模块304。

其中提取模块301用于获取输入视频，提取视频中的输入语音。

查看模块302与提取模块301连接，用于查看输入语音是否完整。

识别获取模块303与查看模块302连接，用于若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情。

具体地，其中识别获取模块303还包括以下子模块：预处理模块、特征获取模块、查找模块。

其中预处理模块用于对输入语音进行预处理检测。

特征获取模块与预处理模块连接，用于获取预处理后的输入语音特征。

查找模块与特征获取模块连接，用于根据输入语音特征，查找声音区域中与输入语音相同的语音。

匹配模块304与识别获取模块303连接，用于将对应的人脸表情匹配到输入视频中。

输出单元202与识别处理器连接，用于输出匹配后带有人脸表情的视频。

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种表情匹配的方法，其特征在于，具体包括以下步骤：

获取输入视频，提取视频中的输入语音；

查看输入语音是否完整；

若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情；

将对应的人脸表情匹配到输入视频中；

输出匹配后带有人脸表情的视频；

在对应的人脸表情匹配到输入视频中之前，还包括，根据输入语音的特性进行人脸表情的选取；

其中输入语音的输入特性Y具体表示为：

其中，p_j表示声压，Y₀为标准声强，σ为输入语音的语速，log表示对数运算；

若输入语音的输入特性Y小于第一阈值，则说明该输入语音的感情色彩一般，调取对应的一般程度的表情；

若输入语音的输入特性Y大于第一阈值小于第二阈值，则说明该输入语音的感情色彩丰富，则调取对应的良好程度的表情；

2.如权利要求1所述的表情匹配的方法，其特征在于，输入视频包括脸部不存在人物表情的人物形象以及人物的输入语音。

3.如权利要求1所述的表情匹配的方法，其特征在于，在对输入的语音进行识别之前，还包括，构建声音音谱库；

声音音谱库包括声音区域和表情区域，声音区域中包括预先录入的多个目标语音，表情区域中包括预先录入的多个人脸表情，声音区域中的一个目标语音与表情区域中的一个或多个人脸表情对应。

4.如权利要求1所述的表情匹配的方法，其特征在于，在对输入的语音进行识别过程中，包括以下子步骤：

对输入语音进行预处理检测；

获取预处理后的输入语音特征；

根据输入语音特征，查找声音区域中与输入语音相同的语音。

5.如权利要求4所述的表情匹配的方法，其特征在于，在获取输入语音的特征之前，还包括以下子步骤：

对预处理后的输入语音进行划分；

对划分后的输入语音进行加强处理；

获取加强后的输入语音特征；

其中输入语音特征E具体表示为：

6.如权利要求5所述的表情匹配的方法，其特征在于，计算目标语音的特征，将目标语音特征与输入语音特征进行差值运算，若二者的特征差值小于指定特征阈值，则两者为同一语音，将目标语音对应的人脸表情匹配到人物形象的脸部区域中。

7.如权利要求1所述的表情匹配的方法，其特征在于，将对应的人脸表情匹配到输入视频之前，还包括，计算输入语音的输入特性，根据输入特性调取不同的人脸表情。

8.一种表情匹配系统，其特征在于，具体包括识别处理器以及输出单元；识别处理器用于执行上述权利要求1-7任一项所述的表情匹配方法；输出单元用于输出匹配后带有人脸表情的视频。

9.如权利要求8所述的表情匹配系统，其特征在于，识别处理器包括以下子模块：提取模块、查看模块、识别获取模块以及匹配模块；

其中提取模块，用于获取输入视频，提取视频中的输入语音；

查看模块，用于查看输入语音是否完整；

识别获取模块，用于若输入语音完整，则对输入语音进行识别，获取与输入语音对应的人脸表情；

匹配模块，用于将对应的人脸表情匹配到输入视频中。

10.如权利要求9所述的表情匹配系统，其特征在于，识别获取模块还包括以下子模块：预处理模块、特征获取模块以及查找模块；

预处理模块，用于对输入语音进行预处理检测；

特征获取模块，用于获取预处理后的输入语音特征；

查找模块，用于根据输入语音特征，查找声音区域中与输入语音相同的语音。