CN111984818A

CN111984818A - 跟唱识别方法和装置、存储介质、电子设备

Info

Publication number: CN111984818A
Application number: CN201910435169.2A
Authority: CN
Inventors: 张文涛; 乔慧丽
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-11-24

Abstract

本公开实施例公开了一种跟唱识别方法和装置、存储介质、电子设备，其中，方法包括：当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征；获取所述播放器的播放内容；根据所述唇部动作特征、所述头部动作特征、所述语音特征以及所述播放内容，确定所述目标对象的跟唱状态。本公开实施例使跟唱识别除了依赖声音信息，还依赖图像信息，提高了跟唱识别的准确率，并且实现快速准确的对目标对象是否跟唱的判断，基于目标对象是否跟唱即可确定目标对象对播放的歌曲的真正态度。

Description

跟唱识别方法和装置、存储介质、电子设备

技术领域

本公开涉及计算机识别技术，尤其是一种跟唱识别方法和装置、存储介质、电子设备。

背景技术

互联网时代形成了信息的过载，人们越来越倾向于使用智能化的产品来减少选择成本和时间成本，为解决这个问题，个性化推荐应运而生，通过海量数据挖掘了解用户的喜好和需求，其商业价值也逐渐显现了出来。

现有技术中针对音乐的个性化推荐都是基于播放历史记录进行智能推荐。

发明内容

现有技术提供的技术方案，无法实现对用户在听歌时是否跟唱，即无法了解用户对歌曲的真正态度。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种跟唱识别方法和装置、存储介质、电子设备。

根据本公开实施例的一个方面，提供了一种跟唱识别方法，包括：

当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征；

获取所述播放器的播放内容；

根据所述唇部动作特征、所述头部动作特征、所述语音特征以及所述播放内容，确定所述目标对象的跟唱状态。

根据本公开实施例的又一方面，提供了一种跟唱识别装置，包括：

特征获取模块，用于当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征；

播放内容获取模块，用于获取所述播放器的播放内容；

跟唱识别模块，用于根据所述特征获取模块确定的所述唇部动作特征、所述头部动作特征、所述语音特征以及所述播放内容获取模块获取的播放内容，确定所述目标对象的跟唱状态。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任意一项实施例所述的跟唱识别方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任意一项实施例所述的跟唱识别方法。

基于本公开上述实施例提供的一种跟唱识别方法和装置、存储介质、电子设备，当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征；获取播放器的播放内容；结合唇部动作特征、头部动作特征、语音特征和播放内容，本公开实施例使跟唱识别除了依赖声音信息，还依赖图像信息，提高了跟唱识别的准确率，并且实现快速准确的对目标对象是否跟唱的判断，基于目标对象是否跟唱即可确定目标对象对播放的歌曲的真正态度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为应用本公开一实施例提供的跟唱识别方法的应用示例图。

图2是本公开一示例性实施例提供的跟唱识别方法的流程示意图。

图3是本公开图2所示实施例中步骤203的一个流程示意图。

图4是本公开图2所示实施例中步骤201的一个流程示意图。

图5是本公开图4所示实施例中步骤2012的一个流程示意图。

图6是本公开图4所示实施例中步骤2012的另一个流程示意图。

图7是本公开另一示例性实施例提供的跟唱识别方法的流程示意图。

图8是本公开一示例性实施例提供的跟唱识别装置的结构示意图。

图9是本公开另一示例性实施例提供的跟唱识别装置的结构示意图。

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，目前市面上针对音乐的个性化推荐都是基于播放历史记录进行智能推荐。

至少存在以下问题：无法去评估用户在听歌时对每首歌的真正态度。

示例性应用场景

本公开提出了一种综合乘车人的唇部动作、头部摆动、声音等特征，监测车主状态是否处于跟唱的方法。本公开提供的跟唱识别方法在车载播放器开始播放音乐时，监测目标对象(如，车主)状态，确定目标对象是否跟唱。其中确定目标对象状态的信息包括：利用摄像头获取目标对象的图像(或视频)信息，从所述图像(或视频)信息中获取车主的嘴唇区域图像，得到唇部动作特征；同样可以从所述图像(或视频)信息中抽取目标对象的头部动作特征；利用麦克风阵列采集目标对象的声音，获取语音特征。将以上流程获取的数据进行融合，包括唇部动作特征、声学特征和头部动作特征，综合得出跟唱置信度，当跟唱置信度大于预设阈值，判断为目标对象正在跟唱。图1为应用本公开一实施例提供的跟唱识别方法的应用示例图。如图1所示，该实施例包括：S10：首先判断车载播放器是否在播放音乐，是否播放音乐可以基于获取车载播放器的后台数据(包括目前是否处于播放音乐状态，以及播放音乐的歌名、歌词、演唱者、风格等信息)确定；或者，利用麦克风收录，通过声源信号分离技术，将歌声提取出来，从而进行确定；如果正在播放音乐，获取音乐信息(歌曲名、歌词、演唱者、风格等等)，并开始监测车主状态。S21：利用摄像头获取目标对象(例如，车主)的图像(或视频)信息，从所述图像(或视频)信息中获取目标对象的嘴唇区域图像，得到唇部动作特征；S22：同样可以从所述图像(或视频)信息中抽取目标对象的头部动作特征；S23：利用麦克风阵列采集目标对象的声音，对语音信号处理后得到语音特征。S30：通过融合模块将以上流程获取的数据进行融合，包括唇部动作特征、声学特征和头部动作特征，综合得出跟唱置信度；S40：判断当跟唱置信度是否高于预设阈值；S50：当跟唱置信度高于预设阈值，判断为车主正在跟唱，将该歌曲归入用户感兴趣的歌曲库里，当车主再次使用车载播放器时，将个性化推荐该歌曲以及同歌手、同风格的歌曲。

示例性方法

图2是本公开一示例性实施例提供的跟唱识别方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征。

其中，目标对象主要包括人，也可包括其他可对播放内容进行跟唱的动物，如，猴子、鹦鹉等等，可选地，可通过获取播放器的后台数据，确定播放器是否处于播放状态，或通过采集声音信号，确定播放器是否处于播放状态，本实施例不限制确定播放器是否处于播放状态的具体方法。

步骤202，获取播放器的播放内容。

在一实施例中，播放内容可以包括从播放器播放的音频中提取得到的音乐信息、词语信息等。

步骤203，根据唇部动作特征、头部动作特征、语音特征以及播放内容，确定目标对象的跟唱状态。

例如，跟唱状态包括跟唱和不跟唱，本公开实施例通过确定目标对象是否跟唱，实现在应用过程中有针对性的为目标对象推荐相应的音频。

可选地，本实施例采用唇部、头部和语音特征对跟唱状态进行确定，是由于当目标对象进行跟唱时，头部和唇部会做出相应动作，而发出的语音会与播放内容相关，例如，唇部的动作会与播放的内容(例如，歌曲的歌词等)相关，头部的动作(例如，点头、摇头、摆头等)与播放的歌曲节奏相关，语音与播放的内容(例如，歌曲的歌词等)相关。

基于本公开上述实施例提供的一种跟唱识别方法，当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征；获取播放器的播放内容；结合唇部动作特征、头部动作特征、语音特征和播放内容，对目标对象的跟唱状态进行识别，本公开实施例使跟唱识别除了依赖声音信息，还依赖图像信息，提高了跟唱识别的准确率，并且实现快速准确的对目标对象是否跟唱的判断，基于目标对象是否跟唱即可确定目标对象对播放的歌曲的真正态度。

如图3所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，利用跟唱识别模型对唇部动作特征、头部动作特征、语音特征以及播放内容进行处理，获得目标对象在跟唱的置信度。

可选地，本实施例中的跟唱识别模型利用预先标注的样本对象的样本唇部动作特征、样本头部动作特征和样本语音特征训练得到。

本实施例中的跟唱识别模型可以采用深度学习网络，通过对跟唱识别模型的训练，以实现基于唇部动作特征、头部动作特征和语音特征输出准确的跟唱置信度，可选地，对跟唱识别模型的训练包括：利用海量标注好的数据输入唱识别模型，对唱识别模型中的网络参数进行调整，获得训练后的唱识别模型。其中，输入数据可以包括但不限于：唇部特征向量(样本唇部动作特征的一种表现形式)，头部动作特征向量(样本头部动作特征的一种表现形式)和语音特征向量(样本语音特征的一种表现形式)、跟唱的歌词(对应上述实施例的播放内容)以及是否处于跟唱的标注信息。

步骤2032，当置信度大于或等于设定阈值时，确定目标对象在跟唱。

可选地，设定阈值可根据实际情况进行设置，本实施例不限制设定阈值的具体大小。

本实施例中，训练后的跟唱识别模型可以将唇部特征，头部动作特征和语音特征进行融合，最终得出跟唱置信度。利用跟唱识别模型获得跟唱的置信度，由于深度学习网络的特性，提高了置信度获取的速度和精度；而基于较准确的置信度与设定阈值进行比较，以确定目标对象是否在跟唱，提高了跟唱识别的准确性。

如图4所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，基于图像采集装置采集的图像确定目标对象。

步骤2012，根据目标对象，确定目标对象的唇部动作特征和头部动作特征。

步骤2013，基于采集的目标对象的语音信号，获得语音特征。

本实施例实现基于视频或图像获取唇部动作特征和头部动作特征，基于语言信号获得语音特征；可选地，可参考图1所示的步骤S21、S22和S23；由于唇部动作特征和头部动作特征都是基于视频和图像获得的，因此，首先利用摄像头等摄像设备获取目标对象(例如，车主)的图像(或视频)信息，从获取的图像(或视频)信息中获取目标对象的嘴唇区域图像，得到唇部动作特征；同样可以从图像(或视频)信息中抽取目标对象的头部动作特征；而语音特征的获取，可利用麦克风阵列采集目标对象的语音信号，对语音信号处理后得到语音特征。可选地，对采集到的语音信号通过特征提取方法转换为计算机能够处理的语音特征向量(语音特征的一种表现形式)。本实施例中应用的特征提取方法可以包括但不限于：梅尔倒谱系数(MFCC)、基于滤波器组的Fbank特征参数、线性预测倒谱系数等等。

如图5所示，在上述图4所示实施例的基础上，步骤2012获取唇部动作特征的过程可包括如下步骤：

步骤20121，对目标对象进行局部区域提取操作，获得唇部区域。

步骤20122，对唇部区域执行特征提取操作，获得唇部动作特征。

本实施例中，唇部动作特征可以是通过图像提取的、用以表征唇语内容的矩阵或向量数据。获取唇部动作特征的具体过程可包括：利用摄像头等摄像设备获取目标对象的图像(或视频)信息，从图像(或视频)信息中获取车主嘴唇区域的连续多帧图像，基于该连续多帧图像进一步提取唇部特征数据。每一帧图像都要提取用于描述唇部形状的多个特征点；对连续多帧图像中的每一帧图像的多个特征点的坐标进行归一化处理，得到唇部动作特征。

本实施例通过局部区域提取将唇部动作特征的提取限定到唇部区域，缩小了进行特征提取的区域，提高了提取获得特征的准确率。

如图6所示，在上述图4所示实施例的基础上，步骤2012获取头部动作特征的过程可包括如下步骤：

步骤20123，对目标对象进行局部区域提取操作，获得人脸区域。

步骤20124，对人脸区域执行特征提取操作，获得头部动作特征。

本实施例中，利用摄像头等摄像设备获取目标对象的图像(或视频)信息，从图像(或视频)信息中获取目标对象头部动作的连续多帧图像，对获取的头部动作图像转换为灰度图像，然后采用背景减除法获取对应的运动目标图像。对每一帧的运动目标图像进一步提取头部动作特征数据，例如，包括：关键距离特征、轮廓宽度特征和统计小波特征等。

本实施例通过局部区域提取将头部动作特征的提取限定到头部区域，缩小了进行特征提取的区域，提高了提取获得特征的准确率。

上述实施例中将头部动作图像转换为灰度图像可通过转换公式实现，例如：Grey＝0.299*R+0.587*G+0.114*B，Grey表示灰度值，R、G、B分别表示红、绿、蓝三个颜色通道的值，依次读取每个像素点的RGB值，将3个通道的分量值按照一定的比例计算灰度值，将灰度值赋值给新图像的相应位置，就能得到灰度图像。转换为灰度图的目的在于：1)颜色本身容易受到光照等外界影响，梯度信息能提供更本质的信息；2)3通道转为1个通道，运量了大大减少；3)OpenCV(开源C++库，用于图像处理和计算机视觉等领域)里的有些函数只支持单通道，因此，本实施例将获得的头部动作图像转换为灰度图像。

上述实施例中背景减除法可利用隐马尔科夫(HMM)模型法等进行背景获取，将当前帧与背景图像进行差分比较实现对运动区域的检测，其中区别较大的像素区域被认为是运动区域，而区别较小的像素区域被认为是背景区域。

图7是本公开另一示例性实施例提供的跟唱识别方法的流程示意图。本实施例可应用在电子设备上，如图7所示，包括如下步骤：

步骤202，获取播放器的播放内容。

步骤704，获取播放内容的相关信息。

其中，播放内容的相关信息可以包括但不限于以下至少一种：歌名、歌词、演唱者、风格等信息。

步骤705，当目标对象在跟唱时，基于相关信息为目标对象推荐内容。

本实施例实现了结合目标对象对播放音乐的态度进行音乐推荐，通过本公开实施例提供的跟唱识别方法判断目标对象感兴趣的歌曲，便于个性化推荐歌曲，提升了用户体验。具体推荐时，可根据一种或多种相关信息进行推荐，例如，获得目标对象跟唱的播放内容的演唱者，推荐该演唱者的其他歌曲给该目标对象；又例如，判断为车主(将本实施例方法应用于车载设备中)正在跟唱，将该歌曲归入用户感兴趣的歌曲库里，当车主再次使用车载播放器时，将个性化推荐该歌曲以及同歌手、同风格的歌曲。

本公开实施例提供的任一种跟唱识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种跟唱识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种跟唱识别方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的跟唱识别装置的结构示意图。如图8所示，本实施例提供的跟唱识别装置包括：

特征获取模块81，用于当播放器处于播放状态时，确定目标对象的唇部动作特征、头部动作特征和语音特征。

播放内容获取模块82，用于获取播放器的播放内容。

跟唱识别模块83，用于根据特征获取模块81确定的唇部动作特征、头部动作特征、语音特征以及播放内容获取模块82获取的播放内容，确定目标对象的跟唱状态。

基于本公开实施例提供的跟唱识别方法，实现了对目标对象的跟唱状态进行识别，使跟唱识别除了依赖声音信息，还依赖图像信息，提高了跟唱识别的准确率，并且实现快速准确的对目标对象是否跟唱的判断，基于目标对象是否跟唱即可确定目标对象对播放的歌曲的真正态度。

图9是本公开另一示例性实施例提供的跟唱识别装置的结构示意图。如图9所示，本实施例提供的跟唱识别装置中，特征获取模块81包括：

对象确定单元811，用于基于图像采集装置采集的图像确定目标对象。

图像特征确定单元812，用于根据对象确定单元811确定的目标对象，确定目标对象的唇部动作特征和头部动作特征。

在一些可选示例中，图像特征确定单元812，具体用于对目标对象进行局部区域提取操作，获得唇部区域；对唇部区域执行特征提取操作，获得唇部动作特征。

在另一些可选示例中，图像特征确定单元812，具体用于对目标对象进行局部区域提取操作，获得人脸区域；对人脸区域执行特征提取操作，获得头部动作特征。

语音特征确定单元813，用于基于采集的对象确定单元811确定的目标对象的语音信号，获得语音特征。

在图9所示的实施例中，跟唱识别模块83包括：

置信度确定单元831，用于利用跟唱识别模型对唇部动作特征、头部动作特征、语音特征以及播放内容进行处理，获得目标对象在跟唱的置信度。

跟唱判断单元832，用于当置信度确定单元831获得的置信度大于或等于设定阈值时，确定目标对象在跟唱。

可选地，跟唱识别模型利用预先标注的样本对象的样本唇部动作特征、样本头部动作特征和样本语音特征训练得到。

在该实施例中，跟唱识别装置还包括：

信息获取模块94，用于获取播放内容的相关信息。

推荐模块95，用于当目标对象在跟唱时，基于信息获取模块84获取的相关信息为目标对象推荐内容。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本公开实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器101和存储器102。

处理器101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器102可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器101可以运行所述程序指令，以实现上文所述的本公开的各个实施例的跟唱识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置103和输出装置104，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置103可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置103可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备103还可以包括例如键盘、鼠标等等。

该输出装置104可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备104可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的跟唱识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在目标对象计算设备上执行、部分地在目标对象设备上执行、作为一个独立的软件包执行、部分在目标对象计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的跟唱识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种跟唱识别方法，包括：

获取所述播放器的播放内容；

2.根据权利要求1所述的方法，其中，所述根据所述唇部动作特征、所述头部动作特征、所述语音特征以及所述播放内容，确定所述目标对象的跟唱状态，包括：

利用跟唱识别模型对所述唇部动作特征、所述头部动作特征、所述语音特征以及所述播放内容进行处理，获得所述目标对象在跟唱的置信度；

当所述置信度大于或等于设定阈值时，确定所述目标对象在跟唱。

3.根据权利要求2所述的方法，其中，所述跟唱识别模型利用预先标注的样本对象的样本唇部动作特征、样本头部动作特征和样本语音特征训练得到。

4.根据权利要求1所述的方法，其中，所述确定目标对象的唇部动作特征、头部动作特征和语音特征，包括：

基于图像采集装置采集的图像确定目标对象；

根据所述目标对象，确定所述目标对象的所述唇部动作特征和所述头部动作特征；

基于采集的所述目标对象的语音信号，获得所述语音特征。

5.根据权利要求4所述的方法，其中，所述根据所述目标对象，确定所述目标对象的所述唇部动作特征，包括：

对所述目标对象进行局部区域提取操作，获得唇部区域；

对所述唇部区域执行特征提取操作，获得所述唇部动作特征。

6.根据权利要求4所述的方法，其中，所述根据所述目标对象，确定所述目标对象的所述头部动作特征，包括：

对所述目标对象进行局部区域提取操作，获得人脸区域；

对所述人脸区域执行特征提取操作，获得所述头部动作特征。

7.根据权利要求1-6任一所述的方法，还包括：

获取所述播放内容的相关信息；

当所述目标对象在跟唱时，基于所述相关信息为所述目标对象推荐内容。

8.一种跟唱识别装置，包括：

播放内容获取模块，用于获取所述播放器的播放内容；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的跟唱识别方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的跟唱识别方法。