CN110232911B

CN110232911B - 跟唱识别方法、装置、存储介质及电子设备

Info

Publication number: CN110232911B
Application number: CN201910509447.4A
Authority: CN
Inventors: 丁匡正
Original assignee: Nanjing Horizon Integrated Circuit Co ltd
Current assignee: Nanjing Horizon Integrated Circuit Co ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2022-04-05
Anticipated expiration: 2039-06-13
Also published as: CN110232911A

Abstract

本公开实施例公开了一种跟唱识别方法、装置、存储介质及电子设备，其中，跟唱识别方法包括：获取当前播放的音频的第一节奏信息；确定用于表征目标对象的唇部动作的唇部动作特征；基于唇部动作特征，确定唇部动作特征对应的第二节奏信息；将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度；若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态。本公开实施例可以根据唇部动作确定目标对象是否处于跟唱状态，丰富了跟唱识别的方式，提高了跟唱识别的准确性，有助于降低跟唱识别的复杂度，提高了跟唱识别的效率。

Description

跟唱识别方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种跟唱识别方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的发展，人们越来越倾向于使用智能化的产品来减少选择成本和时间成本，为解决这个问题，个性化推荐应运而生。这项技术通过使用海量数据挖掘了解用户的喜好和需求，从而向用户推荐信息。目前针对音频的个性化推荐主要是基于播放历史记录进行智能推荐。为了评估用户在收听音频时对音频的真正态度，通常可以对用户的语音进行识别。例如当用户喜欢某首歌曲时，会跟唱该歌曲，此时识别用户的语音，将语音对应的文字信息与歌词匹配，如果匹配程度高，则可以确定用户在跟唱，即用户对该歌曲的偏好程度高。

发明内容

本公开的实施例提供了一种跟唱识别方法、装置、存储介质及电子设备。

根据本公开实施例的一个方面，提供了一种跟唱识别方法，该方法包括：获取当前播放的音频的第一节奏信息；确定用于表征目标对象的唇部动作的唇部动作特征；基于唇部动作特征，确定唇部动作特征对应的第二节奏信息；将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度；若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态。

根据本公开实施例的另一个方面，提供了一种跟唱识别装置，该装置包括：第一获取模块，用于获取当前播放的音频的第一节奏信息；第一确定模块，用于确定用于表征目标对象的唇部动作的唇部动作特征；第二确定模块，用于基于唇部动作特征，确定唇部动作特征对应的第二节奏信息；匹配模块，用于将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度；第三确定模块，用于若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述跟唱识别方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述跟唱识别方法。

基于本公开上述实施例提供的跟唱识别方法、装置、计算机可读存储介质及电子设备，通过获取当前播放的音频的第一节奏信息，以及确定目标对象的唇部动作特征，基于唇部动作特征确定第二节奏信息，再将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度，若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态，从而实现了根据唇部动作确定目标对象是否处于跟唱状态，丰富了跟唱识别的方式，提高了跟唱识别的准确性，有助于降低跟唱识别的复杂度，提高了跟唱识别的效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的跟唱识别方法的流程示意图。

图3是本公开的实施例的跟唱识别方法的一个应用场景的示意图。

图4是本公开另一示例性实施例提供的跟唱识别方法的流程示意图。

图5是本公开一示例性实施例提供的跟唱识别装置的结构示意图。

图6是本公开另一示例性实施例提供的跟唱识别装置的结构示意图。

图7是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前针对音频的个性化推荐都是基于播放历史记录进行智能推荐，无法去评估用户在听歌时对每首歌的真正态度。采用识别用户的语音，将语音对应的文字信息与歌词匹配的方法，可以确定用户是否处于跟唱状态，但是，语音识别准确率较低。例如，在车辆上播放音乐时，由于车辆高速运行时受风噪、胎噪等影响，准确率会降低。并且，用户有时候跟唱并不发声，只是简单的对口型，此时无法确定用户是否处于跟唱状态。

示例性系统

图1示出了可以应用本公开的实施例的跟唱识别方法或跟唱识别装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如音频播放应用、视频播放应用、网页浏览器应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上播放的音频提供支持的后台音频服务器。后台音频服务器可以确定播放的音频的节奏信息，还可以接收终端设备101上传的图像，并对图像进行唇部动作识别。

需要说明的是，本公开的实施例所提供的跟唱识别方法可以由服务器103执行，也可以由终端设备101执行，相应地，跟唱识别装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在播放的音频

示例性方法

图2是本公开一示例性实施例提供的跟唱识别方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，获取当前播放的音频的第一节奏信息。

在本实施例中，电子设备可以从远程或从本地获取当前播放的音频的第一节奏信息。其中，第一节奏信息可以用于表征音频的节奏(或称为节拍)。作为示例，第一节奏信息可以包括音频中的重音之间的间隔时间，或者包括音频中的语音成分包括的词语或文字之间的间隔时间，或者包括音频中的语音成分包括的语句的持续时间。

在一些可选的实现方式中，电子设备可以按照如下任一方式获取第一节奏信息：

方式一，获取当前播放的音频的属性信息，从属性信息中确定第一节奏信息。其中，属性信息可以用于表征音频的各种属性，除上述第一节奏信息外，属性信息还可以包括诸如音频的作者、音频的播放时长、音频的制作时间等。通过从属性信息中确定第一节奏信息，可以提高确定第一节奏信息的效率，有助于提高跟唱识别的效率。

方式二，对音频进行节奏识别，得到第一节奏信息。其中，第一节奏信息包括第二语句时间集合，第二语句时间集合中的语句时间用于表征音频包括的语句的持续时间。通常，音频可以包括多个语句，每个语句对应一个持续时间，持续时间用于表征语句播放时持续的时间。电子设备可以按照各种方式对音频进行节奏识别。作为示例，电子设备可以按照现有的语音识别方法，从音频中识别出语音，并确定每条语音的持续时间。或者，电子设备可以利用现有的频谱分析方法，确定音频的节奏信息。通过对音频进行节奏识别得到第一节奏信息，可以提高确定第一节奏信息的准确性，有助于提高跟唱识别的准确性。

步骤202，确定用于表征目标对象的唇部动作的唇部动作特征。

在本实施例中，电子设备可以确定用于表征目标对象的唇部动作的唇部动作特征。其中，目标对象可以是待对其唇部动作进行分析的人物。通常，电子设备可以获取预设的摄像头拍摄的目标对象的嘴部图像序列，对嘴部图像序列进行识别，从而确定出唇部动作特征。其中，唇部动作特征可以用特征向量、特征矩阵等数据形式表征，例如，特征向量可以包括上唇与下唇距离的变化量、两个嘴角的距离的变化量等数据。

作为示例，电子设备可以利用预先训练的唇部动作识别模型，确定唇部动作特征。其中，唇部动作识别模型用于表征唇部图像序列与唇部动作特征的对应关系。唇部动作识别模型可以是利用预设的训练样本，对初始模型进行训练而得到的机器学习模型。例如，初始模型可以包括诸如RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)等用于处理序列数据的模型。电子设备可以利用机器学习方法，训练样本包括的样本唇部图像序列作为输入，将与输入的样本唇部图像序列对应的唇部动作特征数据作为期望输出，对初始模型进行训练，针对每次训练输入的样本唇部图像序列，可以得到实际输出。其中，实际输出是初始模型实际输出的数据，用于表征唇部动作特征。然后，上述电子设备可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件(例如训练时间超过预设时长；训练次数超过预设次数；利用预设的损失函数计算所得的损失值小于预设损失值阈值)的情况下，结束训练，从而训练得到唇部动作识别模型。

步骤203，基于唇部动作特征，确定唇部动作特征对应的第二节奏信息。

在本实施例中，电子设备可以基于唇部动作特征，确定唇部动作特征对应的第二节奏信息。其中，第二节奏信息可以用于表征目标对象发出的语音的节奏。作为示例，第二节奏信息可以包括目标对象发出的语音中的词语或文字之间的间隔时间，或者包括目标对象发出的语音中的语句的持续时间。

具体地，作为示例，电子设备可以基于唇部动作特征，确定每个唇部动作之间的间隔时间作为第二节奏信息。

作为另一示例，电子设备可以将表征唇部动作特征的数据输入预先训练的节奏信息确定模型，得到第二节奏信息。其中，节奏信息确定模型可以是利用机器学习算法，对初始模型进行训练得到的。具体地，电子设备可以获取预设的训练样本集合，其中，训练样本包括样本唇部动作特征数据和对应的节奏信息。电子设备将训练样本包括的样本唇部动作特征数据作为初始模型的输入，将输入的样本唇部动作特征数据对应的节奏信息作为初始模型的期望输出，对初始模型进行训练，得到节奏信息确定模型。

在一些可选的实现方式中，电子设备可以基于唇部动作特征，确定第一语句时间集合作为第二节奏信息。其中，第一语句时间集合中的语句时间用于表征目标对象发出的语句的持续时间。具体地，电子设备可以基于唇部动作特征，确定连续的唇部动作的持续时间作为第一语句时间集合中的语句时间，将唇部静止时的时间作为两组连续的唇部动作的间隔。本实现方式可以基于唇部动作特征确定目标对象发出的语句的持续时间作为第二节奏信息，实现方式较简单，提高了确定第二节奏信息的效率，有助于提高确定目标对象是否处于跟唱状态的效率。

步骤204，将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度。

在本实施例中，电子设备可以将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度。其中，节奏匹配度用于表征第一节奏信息和第二节奏信息之间的相似程度。

作为示例，如上述可选的实现方式描述的内容，第一节奏信息可以包括第二语句时间集合，第二节奏信息可以包括第一语句时间集合。电子设备可以依次确定第二语句时间集合包括的语句时间和相对应的第一语句时间集合包括的语句时间的差值，如果差值大于等于预设的差值阈值，确定两个语句时间匹配，否则确定两个语句时间不匹配。进一步将互相匹配的语句时间的数量占语句时间的总数的比值确定为节奏匹配度。

再例如，上述第一语句时间集合和第二语句时间集合可以分别以向量的形式表征，电子设备可以确定两个向量之间的距离(例如欧氏距离或余弦距离等)，基于距离确定向量之间的相似度作为节奏匹配度。

步骤205，若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态。

在本实施例中，若节奏匹配度满足第一预设条件，电子设备可以确定目标对象处于跟唱状态。作为示例，第一预设条件可以为：节奏匹配度大于或等于预设的第一匹配度阈值。通常，当确定目标对象处于跟唱状态时，表示目标对象对当前播放的音频较感兴趣，从而有助于及时地根据目标对象对当前播放的音频的态度，向目标对象推荐内容。

在一些可选的实现方式中，电子设备可以响应于确定目标对象处于跟唱状态，获取当前播放的音频的相关信息。其中，相关信息可以包括各种信息，包括但不限于以下至少一种：音频的演唱者、音频所属的类别、音频的发布者、音频的发布地址等。然后，电子设备可以基于相关信息为目标对象推荐内容。作为示例，电子设备可以获取与当前播放的音频所属的类别相同的音频作为向目标对象推荐的内容。或者，将与当前播放的音频相同的演唱者演唱的其他音频作为向目标对象推荐的内容。或者，将与当前播放的音频相关的新闻作为向目标对象推荐的内容。

本实现方式可以在确定目标对象处于跟唱状态后，向目标对象有针对性地推荐内容。从而实现了实时地根据目标对象对当前播放的音频的态度(即目标对象处于跟唱状态时，标识目标对象对当前播放的音频的感兴趣程度较高)向目标对象推荐内容，实现了精准地向目标对象推荐内容。

参见图3，图3是根据本实施例的文本分类方法的应用场景的一个示意图。在图3的应用场景中，电子设备301为车载终端，电子设备301首先获取当前播放的音频302(例如歌曲)的第一节奏信息303(即执行步骤201)。其中，第一节奏信息303包含于音频302的属性信息中，第一节奏信息303包括音频中的语音成分包括的语句的持续时间。然后，电子设备301确定用于表征目标对象307(例如驾驶员)的唇部动作的唇部动作特征304(即执行步骤202)。其中，电子设备301可以获取安装在车辆上的摄像头针对目标对象307的嘴部拍摄的图像序列，将图像序列输入预先训练的唇部动作识别模型，得到唇部动作特征304。再然后，电子设备301基于唇部动作特征304，确定唇部动作特征对应的第二节奏信息305(即执行步骤203)。其中，第二节奏信息305包括目标对象发出的语音中的语句的持续时间。接着，电子设备301将第一节奏信息303和第二节奏信息305进行匹配，得到节奏匹配度306(即执行步骤204)。例如，第一节奏信息303和第二节奏信息305分别包括持续时间集合，两者包括的持续时间集合为向量的形式，电子设备301可以确定两个向量之间的距离，基于距离确定向量之间的相似度作为节奏匹配度306。最后，若节奏匹配度306满足第一预设条件(例如节奏匹配度306大于预设的节奏匹配度阈值)，电子设备301确定目标对象处于跟唱状态，并生成用于表征跟唱状态的标识308(即执行步骤205)。进一步地，由于目标对象处于跟唱状态，后台音频服务器可以向电子设备301发送与音频302相关的推荐内容。

本公开的上述实施例提供的方法，通过获取当前播放的音频的第一节奏信息，以及确定目标对象的唇部动作特征，基于唇部动作特征确定第二节奏信息，再将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度，若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态，从而实现了根据唇部动作确定目标对象是否处于跟唱状态，丰富了跟唱识别的方式，提高了跟唱识别的准确性，有助于降低跟唱识别的复杂度，提高了跟唱识别的效率。

进一步参考图4，示出了跟唱识别方法的又一个实施例的流程示意图。如图4所示，在上述图2所示实施例的基础上，步骤204之后，还可以包括如下步骤：

步骤206，若节奏匹配度满足第二预设条件，获取用于表征目标对象发出的声音的语音信号。

在本实施例中，电子设备可以在节奏匹配度满足第二预设条件时，获取用于表征目标对象发出的声音的语音信号。作为示例，第二预设条件可以为：节奏匹配度小于上述第一匹配度阈值，且大于预设的第二匹配度阈值。当节奏匹配度满足第二预设条件时，通常表示电子设备基于唇部动作特征无法准确地确定目标对象是否处于跟唱状态，此时，需要进行进一步得分析。

步骤207，对语音信号进行识别，得到识别文本。

在本实施例中，电子设备可以对语音信号进行识别，得到识别文本。具体地，电子设备可以利用现有的语音识别方法，对语音信号进行识别。作为示例，电子设备可以通过麦克风阵列采集目标对象发出的声音，得到语音信号，然后将语音信号转换为计算机能够处理的语音特征向量。进一步对语音特征向量进行分析(例如将语音特征向量输入语音识别模型)，得到识别文本。常用的语音特征提取方法包括梅尔倒谱系数(MFCC)、基于滤波器组的Fbank特征参数、线性预测倒谱系数等等。

在一些可选的实现方式中，电子设备可以按照如下步骤对语音信号进行识别，得到识别文本：

首先，对语音信号进行识别，得到第一识别结果。作为示例，第一识别结果可以包括第一候选识别文本集合，其中，每个第一候选识别文本均为对语音信号进行识别得到的。通常，每个第一候选识别文本对应于一个置信度(或概率值)，置信度越高，表示候选识别文本为正确的识别文本的概率越高。

然后，对唇部动作特征进行识别，得到第二识别结果。作为示例，第二识别结果可以包括第二候选识别文本。电子设备可以利用现有的唇语识别方法(例如基于神经网络的唇语识别方法)，对唇部动作特征进行识别，得到第二候选识别文本。或者，第二识别结果可以包括语音特征信息，语音特征信息用于表征唇部动作特征对应的语音。例如，语音特征信息可以为汉语拼音。

最后，基于第一识别结果和第二识别结果，确定识别文本。作为示例，第一识别结果可以包括第一候选识别文本集合，第二识别结果可以包括第二候选识别文本，电子设备可以确定每个第一候选识别文本与第二候选识别文本的相似度，将最大的相似度对应的第一候选识别文本确定为步骤207所得到的识别文本。

作为另一示例，第一识别结果可以包括第一候选识别文本集合，第二识别结果可以包括语音特征信息，电子设备确定每个第一候选识别文本的语音特征与上述语音特征信息表征的语音特征的相似度，并将最大的相似度对应的第一候选识别文本确定为步骤207所得到的识别文本。

本可选的实现方式实现了将语音识别与唇部动作识别相结合，可以提高跟唱识别的准确性，减少误识别的概率，丰富了跟唱识别的方式。

步骤208，获取音频对应的播放文本，并将识别文本与播放文本进行匹配，得到文本匹配度。

在本实施例中，电子设备可以获取音频对应的播放文本，并将识别文本与播放文本进行匹配，得到文本匹配度。其中，播放文本可以是与音频包括的语音成分相对应的文本，例如，歌词、字幕等。

电子设备可以利用现有的确定文本相似度的方法，确定识别文本与播放文本的相似度作为文本匹配度。通常，电子设备可以首先确定播放文本和识别文本分别对应的文本特征向量(例如利用现有的one-hot算法、word2vec算法等确定文本特征向量)，再确定文本特征向量的距离，根据距离确定相似度。

步骤209，若文本匹配度满足第三预设条件，确定目标对象处于跟唱状态。

在本实施例中，电子设备可以在文本匹配度满足第三预设条件时，确定目标对象处于跟唱状态。作为示例，第三预设条件可以为：文本匹配度大于或等于预设的文本匹配度阈值。通常，当节奏匹配度满足第二预设条件，且文本匹配度满足第三预设条件时，表示目标对象的唇部动作无法准确地与音频包括的语音成分匹配，但目标对象发出的语音可以与音频包括的语音成分匹配，此时依然可以确定目标对象处于跟唱状态。

上述图4对应实施例提供的方法，突出了对语音信号进行识别的步骤，在无法准确根据唇部特征进行跟唱识别的情况下，通过语音识别提高了跟唱识别的准确性。

本公开实施例提供的任一种跟唱识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种跟唱识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种跟唱识别方法。下文不再赘述。

示例性装置

图5是本公开一示例性实施例提供的跟唱识别装置的结构示意图。本实施例可应用在电子设备上，如图5所示，跟唱识别装置包括：第一获取模块501，用于获取当前播放的音频的第一节奏信息；第一确定模块502，用于确定用于表征目标对象的唇部动作的唇部动作特征；第二确定模块503，用于基于唇部动作特征，确定唇部动作特征对应的第二节奏信息；匹配模块504，用于将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度；第三确定模块505，用于若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态。

在本实施例中，第一获取模块501可以从远程或从本地获取当前播放的音频的第一节奏信息。其中，第一节奏信息可以用于表征音频的节奏(或称为节拍)。作为示例，第一节奏信息可以包括音频中的重音之间的间隔时间，或者包括音频中的语音成分包括的词语或文字之间的间隔时间，或者包括音频中的语音成分包括的语句的持续时间。

在本实施例中，第一确定模块502可以确定用于表征目标对象的唇部动作的唇部动作特征。其中，目标对象可以是待对其唇部动作进行分析的人物。通常，第一确定模块502可以获取预设的摄像头拍摄的目标对象的嘴部图像序列，对嘴部图像序列进行识别，从而确定出唇部动作特征。其中，唇部动作特征可以用特征向量、特征矩阵等数据形式表征，例如，特征向量可以包括上唇与下唇距离的变化量、两个嘴角的距离的变化量等数据。

作为示例，第一确定模块502可以利用预先训练的唇部动作识别模型，确定唇部动作特征。其中，唇部动作识别模型用于表征唇部图像序列与唇部动作特征的对应关系。唇部动作识别模型可以是利用预设的训练样本，对初始模型进行训练而得到的机器学习模型。例如，初始模型可以包括诸如RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)等用于处理序列数据的模型。第一确定模块502可以利用机器学习方法，训练样本包括的样本唇部图像序列作为输入，将与输入的样本唇部图像序列对应的唇部动作特征数据作为期望输出，对初始模型进行训练，针对每次训练输入的样本唇部图像序列，可以得到实际输出。其中，实际输出是初始模型实际输出的数据，用于表征唇部动作特征。然后，上述第一确定模块502可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始模型的参数，将每次调整参数后得到的模型作为下次训练的初始模型，并在满足预设的训练结束条件(例如训练时间超过预设时长；训练次数超过预设次数；利用预设的损失函数计算所得的损失值小于预设损失值阈值)的情况下，结束训练，从而训练得到唇部动作识别模型。

在本实施例中，第二确定模块503可以基于唇部动作特征，确定唇部动作特征对应的第二节奏信息。其中，第二节奏信息可以用于表征目标对象发出的语音的节奏。作为示例，第二节奏信息可以包括目标对象发出的语音中的词语或文字之间的间隔时间，或者包括目标对象发出的语音中的语句的持续时间。

具体地，作为示例，第二确定模块503可以基于唇部动作特征，确定每个唇部动作之间的间隔时间作为第二节奏信息。

作为另一示例，第二确定模块503可以将表征唇部动作特征的数据输入预先训练的节奏信息确定模型，得到第二节奏信息。其中，节奏信息确定模型可以是利用机器学习算法，对初始模型进行训练得到的。具体地，第二确定模块503可以获取预设的训练样本集合，其中，训练样本包括样本唇部动作特征数据和对应的节奏信息。第二确定模块503将训练样本包括的样本唇部动作特征数据作为初始模型的输入，将输入的样本唇部动作特征数据对应的节奏信息作为初始模型的期望输出，对初始模型进行训练，得到节奏信息确定模型。

在本实施例中，匹配模块504可以将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度。其中，节奏匹配度用于表征第一节奏信息和第二节奏信息之间的相似程度。

作为示例，如上述可选的实现方式描述的内容，第一节奏信息可以包括第二语句时间集合，第二节奏信息可以包括第一语句时间集合。匹配模块504可以依次确定第二语句时间集合包括的语句时间和相对应的第一语句时间集合包括的语句时间的差值，如果差值大于等于预设的差值阈值，确定两个语句时间匹配，否则确定两个语句时间不匹配。进一步将互相匹配的语句时间的数量占语句时间的总数的比值确定为节奏匹配度。

再例如，上述第一语句时间集合和第二语句时间集合可以分别以向量的形式表征，匹配模块504可以确定两个向量之间的距离(例如欧氏距离或余弦距离等)，基于距离确定向量之间的相似度作为节奏匹配度。

在本实施例中，若节奏匹配度满足第一预设条件，第三确定模块505可以确定目标对象处于跟唱状态。作为示例，第一预设条件可以为：节奏匹配度大于或等于预设的第一匹配度阈值。通常，当确定目标对象处于跟唱状态时，表示目标对象对当前播放的音频较感兴趣，从而有助于及时地根据目标对象对当前播放的音频的态度，向目标对象推荐内容。

参照图6，图6是本公开另一示例性实施例提供的跟唱识别装置的结构示意图。

在一些可选的实现方式中，第二确定模块503可以进一步用于：基于唇部动作特征，确定第一语句时间集合作为第二节奏信息，其中，第一语句时间集合中的语句时间用于表征目标对象发出的语句的持续时间。

在一些可选的实现方式中，上述装置还可以包括：第二获取模块506，用于若节奏匹配度满足第二预设条件，获取用于表征目标对象发出的声音的语音信号；识别模块507，用于对语音信号进行识别，得到识别文本；第三获取模块508，用于获取音频对应的播放文本，并将识别文本与播放文本进行匹配，得到文本匹配度；第四确定模块509，用于若文本匹配度满足第三预设条件，确定目标对象处于跟唱状态。

在一些可选的实现方式中，识别模块507可以包括：第一识别单元5071，用于对语音信号进行识别，得到第一识别结果；第二识别单元5072，用于对唇部动作特征进行识别，得到第二识别结果；确定单元5073，用于基于第一识别结果和第二识别结果，确定识别文本。

在一些可选的实现方式中，第一获取模块501可以进一步用于：获取当前播放的音频的属性信息，从属性信息中确定第一节奏信息；或者对音频进行节奏识别，得到第一节奏信息，其中，第一节奏信息包括第二语句时间集合，第二语句时间集合中的语句时间用于表征音频包括的语句的持续时间。

在一些可选的实现方式中，上述装置还可以包括：第四获取模块510，用于响应于确定目标对象处于跟唱状态，获取当前播放的音频的相关信息；推荐模块511，用于基于相关信息为目标对象推荐内容。

本公开上述实施例提供的跟唱识别装置，通过获取当前播放的音频的第一节奏信息，以及确定目标对象的唇部动作特征，基于唇部动作特征确定第二节奏信息，再将第一节奏信息和第二节奏信息进行匹配，得到节奏匹配度，若节奏匹配度满足第一预设条件，确定目标对象处于跟唱状态，从而实现了根据唇部动作确定目标对象是否处于跟唱状态，丰富了跟唱识别的方式，提高了跟唱识别的准确性，有助于降低跟唱识别的复杂度，提高了跟唱识别的效率。

示例性电子设备

下面，参考图7来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本公开实施例的电子设备的框图。

如图7所示，电子设备700包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行程序指令，以实现上文的本公开的各个实施例的跟唱识别方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置703可以是摄像头、麦克风等设备，用于输入图像和语音。在该电子设备是单机设备时，该输入装置703可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像和语音。

该输出装置704可以向外部输出各种信息，包括确定出的类别信息。该输出设备704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的跟唱识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的跟唱识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种跟唱识别方法，包括：

获取当前播放的音频的第一节奏信息；

确定用于表征目标对象的唇部动作的唇部动作特征；

基于所述唇部动作特征，确定所述唇部动作特征对应的第二节奏信息；

将所述第一节奏信息和所述第二节奏信息进行匹配，得到节奏匹配度；

若所述节奏匹配度满足第一预设条件，确定所述目标对象处于跟唱状态；

所述基于所述唇部动作特征，确定所述唇部动作特征对应的第二节奏信息，包括：

基于所述唇部动作特征，确定第一语句时间集合作为第二节奏信息，其中，所述第一语句时间集合中的语句时间用于表征所述目标对象发出的语句的持续时间；

所述获取当前播放的音频的第一节奏信息，包括：

对所述音频进行节奏识别，得到第一节奏信息，其中，所述第一节奏信息包括第二语句时间集合，所述第二语句时间集合中的语句时间用于表征所述音频包括的语句的持续时间。

2.根据权利要求1所述的方法，其中，所述方法还包括：

若所述节奏匹配度满足第二预设条件，获取用于表征所述目标对象发出的声音的语音信号；

对所述语音信号进行识别，得到识别文本；

获取所述音频对应的播放文本，并将所述识别文本与所述播放文本进行匹配，得到文本匹配度；

若所述文本匹配度满足第三预设条件，确定所述目标对象处于跟唱状态。

3.根据权利要求2所述的方法，其中，所述对所述语音信号进行识别，得到识别文本，包括：

对所述语音信号进行识别，得到第一识别结果；

对所述唇部动作特征进行识别，得到第二识别结果；

基于所述第一识别结果和第二识别结果，确定所述识别文本。

4.根据权利要求1所述的方法，其中，所述获取当前播放的音频的第一节奏信息，包括：

获取当前播放的音频的属性信息，从所述属性信息中确定第一节奏信息。

5.根据权利要求1-4之一所述的方法，其中，所述方法还包括：

响应于确定所述目标对象处于跟唱状态，获取所述当前播放的音频的相关信息；

基于所述相关信息为所述目标对象推荐内容。

6.一种跟唱识别装置，包括：

第一获取模块，用于获取当前播放的音频的第一节奏信息；

第一确定模块，用于确定用于表征目标对象的唇部动作的唇部动作特征；

第二确定模块，用于基于所述唇部动作特征，确定所述唇部动作特征对应的第二节奏信息；

匹配模块，用于将所述第一节奏信息和所述第二节奏信息进行匹配，得到节奏匹配度；

第三确定模块，用于若所述节奏匹配度满足第一预设条件，确定所述目标对象处于跟唱状态；

所述第二确定模块进一步用于：基于所述唇部动作特征，确定第一语句时间集合作为第二节奏信息，其中，所述第一语句时间集合中的语句时间用于表征所述目标对象发出的语句的持续时间；

所述第一获取模块进一步用于：对所述音频进行节奏识别，得到第一节奏信息，其中，所述第一节奏信息包括第二语句时间集合，所述第二语句时间集合中的语句时间用于表征所述音频包括的语句的持续时间。

7.根据权利要求6所述的装置，其中，所述装置还包括：

第二获取模块，用于若所述节奏匹配度满足第二预设条件，获取用于表征所述目标对象发出的声音的语音信号；

识别模块，用于对所述语音信号进行识别，得到识别文本；

第三获取模块，用于获取所述音频对应的播放文本，并将所述识别文本与所述播放文本进行匹配，得到文本匹配度；

第四确定模块，用于若所述文本匹配度满足第三预设条件，确定所述目标对象处于跟唱状态。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的跟唱识别方法。

9.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一所述的跟唱识别方法。