CN111554303B

CN111554303B - 一种歌曲演唱过程中的用户身份识别方法及存储介质

Info

Publication number: CN111554303B
Application number: CN202010385275.7A
Authority: CN
Inventors: 陈勇; 王子亮; 邹应双; 林剑宇; 刘旺
Original assignee: Fujian Kaimi Network Science & Technology Co ltd; Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Kaimi Network Science & Technology Co ltd; Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-06-02
Anticipated expiration: 2040-05-09
Also published as: CN111554303A

Abstract

本发明涉及语音识别技术领域，特别涉及一种歌曲演唱过程中的用户身份识别方法及存储介质。所述一种歌曲演唱过程中的用户身份识别方法，包括步骤：获取歌曲中每段原声演唱的起止时间段；采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息；将所述声纹信息与预存的声纹模型进行匹配；优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。通过该方式，无需用户每演唱一首歌，就手动输入身份信息，而是当用户开口演唱时，会自动获取其声音并计算得其声纹信息，进而根据声纹信息在系统预存的声纹模型中寻找与其匹配度高的用户，将该用户标记为当前演唱用户。

Description

一种歌曲演唱过程中的用户身份识别方法及存储介质

技术领域

本发明涉及语音识别技术领域，特别涉及一种歌曲演唱过程中的用户身份识别方法及存储介质。

背景技术

随着生活水平的日益提高，越来越多的人喜欢去娱乐场所K歌，相较于传统的大家点歌唱歌的模式，现在的点唱方式越来越多样。

如在演唱歌曲的过程中，获知用户的身份信息，进而在显示界面中展现用户的相关信息，使得用户可获得更好的体验。

而目前现有的技术方案，常采用的方式是：用户每点一首歌曲，就手动进行一次用户身份关联，操作非常地繁琐；

且在演唱过程中，同一首歌，可能由多个用户共同演绎，如A演唱部分，B演唱部分，在这种情况下，现有的技术方案就无法做到根据用户身份的改变及时做出调整，只能是机械式地仍显示在点播该歌曲时绑定的用户的身份信息；

还可预知的另一种手段，是“声音密码”(语音文本识别)。如A用户的声音密码是“芝麻开门”，B用户是“土豆开门”；当A用户通过音频输入设备讲出“芝麻开门”时，系统认为当前用户为A。这一手段同样存在缺陷：在歌曲开始或用户更换时，都需要讲出用户自己的声音密码，非常繁琐。

发明内容

为此，需要提供一种歌曲演唱过程中的用户身份识别方法，用以解决演唱过程中用户身份识别麻烦、演唱过程中用户身份改变时无法及时识别的问题。具体技术方案如下：

一种歌曲演唱过程中的用户身份识别方法，包括步骤：

获取歌曲中每段原声演唱的起止时间段；

采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息；

将所述声纹信息与预存的声纹模型进行匹配；

优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

进一步的，所述“采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频”步骤前还包括：在数字视听场所播放歌曲。

进一步的，所述“获取歌曲中每段原声演唱的起止时间段”后还包括：获取每段原声演唱的起止时间段中原声演唱者的身份信息，统计原声演唱者个数，及每个原声演唱者演唱的起止时间段。

进一步的，所述“将所述声纹信息与预存的声纹模型进行匹配”包括：分别获取各个原声演唱者演唱的起止时间段中输入音频的声纹信息，将各个声纹信息分别与预存的声纹模型进行匹配，分别得到与各个声纹信息匹配的声纹模型；每个声纹信息对应一演唱用户。

进一步的，所述“获取歌曲中每段原声演唱的起止时间段”包括：获取每句歌词对应的原声演唱的起止时间段；

所述“采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息”包括：歌曲播放过程中，采集每句歌词对应的原声演唱的起止时间段中音频输入设备的输入音频，并实时计算每句歌词对应的所述输入音频的声纹信息；

所述“将所述声纹信息与预存的声纹模型进行匹配”包括：实时将每句歌词对应的所述输入音频的声纹信息分别与预存的声纹模型进行匹配；

所述“优先将匹配度高的声纹模型对应的用户标记为当前演唱用户”包括：获取每句歌词对应的所述输入音频的声纹信息匹配度高的声纹模型，并将声纹模型对应的用户标记为每句的演唱用户。

进一步的，所述“获取歌曲中每段原声演唱的起止时间段”前，还包括步骤：

获取用户的身份注册信息和用户演唱的音频，对所述音频进行训练得声纹模型，将同一用户的身份注册信息与声纹模型建立对应关系。

进一步的，所述“获取歌曲中每段原声演唱的起止时间段”前，还包括步骤：获取一个以上用户的登录信息，根据所述用户的登录信息从服务器中获取对应的声纹模型；

所述“将所述声纹信息与预存的声纹模型进行匹配；优先将匹配度高的声纹模型对应的用户标记为当前演唱用户”，还包括步骤：

将所述声纹信息与所述从服务器中获取的对应的声纹模型进行匹配，优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

进一步的，还包括步骤：

展示所述当前演唱用户的相关信息，所述相关信息至少包括下列中的一种：专属的界面皮肤、演唱历史、演唱用户对应的虚拟形象、演唱用户头像。

为解决上述技术问题，还提供一种计算机可读存储介质，具体技术方案如下：

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述所述的步骤。

本发明的有益效果是：通过获取歌曲中每段原声演唱的起止时间段；采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息；将所述声纹信息与预存的声纹模型进行匹配；优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

通过该方式，

1、无需用户每演唱一首歌，就手动输入身份信息，而是当用户开口演唱时，会自动获取其声音并计算得其声纹信息，进而根据声纹信息在系统预存的声纹模型中寻找与其匹配度高的用户，将该用户标记为当前演唱用户。

2、并非歌曲播放过程中全程采集音频输入设备的输入音频，而是先通过获取歌曲中每段原声演唱的起止时间段，然后采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，使得计算量降低的同时，屏蔽了非演唱时间范围内的干扰音频，提高识别率。

附图说明

图1为具体实施方式所述一种歌曲演唱过程中的用户身份识别方法的流程图；

图2为具体实施方式所述一种计算机可读存储介质的模块示意图。

附图标记说明：

200、计算机可读存储介质。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明具体实施方式一种歌曲演唱过程中的用户身份识别方法的流程图。其中，该歌曲演唱过程中的用户身份识别方法可应用在一种计算机可读存储介质上，所述计算机可读存储介质包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备和智能移动终端等。

在本实施方式中，具体地应用场所为在数字视听场所播放歌曲。

其具体步骤可如下：

步骤S101：获取歌曲中每段原声演唱的起止时间段。

步骤S102：采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息。在各种数字视听场所中，用户点播好要演唱的歌曲，在歌曲播放的过程中，用户会通过音频输入设备(如麦克风)进行演唱，在用户演唱的过程中采集歌曲播放过程中原声演唱起止时间段中麦克风的输入音频。

步骤S103：将所述声纹信息与预存的声纹模型进行匹配。

步骤S104：优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

通过获取歌曲中每段原声演唱的起止时间段；采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息；将所述声纹信息与预存的声纹模型进行匹配；优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

通过该方式，

可实时采集音频输入设备的输入音频。但结合到实际应用场景中，在演唱过程中，一般一人会至少演唱一句或多句，故可预先设定采集规则进行多次采集音频输入设备的输入音频。如：

所述“获取歌曲中每段原声演唱的起止时间段”包括：获取每句歌词对应的原声演唱的起止时间段；

如：播放歌曲《爱你一万年》，获取每句歌词对应的原声演唱的起止时间段，即：当原声开始演唱第一句：寒风吹起细雨迷离，到第一句演唱结束的时间为歌曲播放到15秒至20秒，则在歌曲开始播放的前15秒不进行麦克风音频输入采集，15秒至20秒才进行麦克风音频输入采集，若原声演唱第一句完，5秒后才演唱第二句，同样的这中间5秒不进行麦克风音频输入采集，只有在有原声演唱的时间段才进行麦克风音频输入采集。这样做使得采集的音频数据量少，减少计算量，同时屏蔽了非演唱时间范围内的干扰音频，提高识别率。

同时，在上述的方案中，对每句演唱音频分别进行采集及声纹比对，这样即使演唱过程中多人进行接龙合唱，也能识别出每句的演唱用户身份。当每个用户进行演唱时，可识别出每个用户的身份，界面进行对应用户的相应显示，可大大提高用户的演唱体验。

结合实际应用场景中，因有很多合唱的歌曲，故进一步的，所述“获取歌曲中每段原声演唱的起止时间段”后还包括：获取每段原声演唱的起止时间段中原声演唱者的身份信息，统计原声演唱者个数，及每个原声演唱者演唱的起止时间段。

所述“将所述声纹信息与预存的声纹模型进行匹配”包括：分别获取各个原声演唱者演唱的起止时间段中输入音频的声纹信息，将各个声纹信息分别与预存的声纹模型进行匹配，分别得到与各个声纹信息匹配的声纹模型；每个声纹信息对应一演唱用户。

因实际中遇到男女合唱歌曲时，经常是一男一女对唱，并且男生演唱男生部分歌曲，女生演唱女生部分歌曲，或演绎组合演唱的歌曲时，如演唱twins的歌曲时，经常是一人演唱阿sa的，一人演唱阿娇的，故优选地可获取每段原声演唱的起止时间段中原声演唱者的身份信息，统计原声演唱者个数，及每个原声演唱者演唱的起止时间段。这样可直接统计原唱歌曲中一共有几个演唱者，及每个演唱者的演唱时间段，从而在对应演唱时间段采集的音频基本都可以认定为同一个用户在演唱。当首次将用户声纹与用户身份关联后，后续同个原声演唱者的演唱时间段，可默认是同个用户在演唱，不再继续声纹识别，直接在界面显示对应用户的相关信息，这样可提高显示当前演唱用户身份的效率，降低声纹识别的计算量。当轮到其他原声演唱者的演唱时间段时，再次采集演唱音频。即：如歌曲《今天你要嫁给我》，在原唱中男生演唱：春暖的花开，带走冬天的感伤，微风吹来浪漫的气息，每一首情歌都忽然充满意义，我就在此刻突然见到你；则可以获取这几句歌词时间段内的输入音频的声纹信息，且默认这部分都是同个用户在演唱，只进行一次声纹识别。接下来是女生演唱的时间段，默认是另一个也用户在演唱，也只进行一次声纹识别。故在这种应用场景中，无需演唱一句就获取输入音频，而是根据原声演唱者个数个性化地确认每个原声演唱者演唱的起止时间段，并获取各个原声演唱者演唱的起止时间段中输入音频的声纹信息。这样做结合了实际应用场景可大大提高识别率及识别效率，且降低声纹识别的计算量。

对于声纹模型的获取，在本实施方式中，在所述“获取歌曲中每段原声演唱的起止时间段”前，还包括步骤：

其中，实际应用场景中，在用户使用点歌系统前，用户需先注册个人的身份注册信息(如用户名、头像等)至服务器，并录制一定时长的歌曲(其中需要录制什么条件的歌曲，如录制时长，歌曲风格，录制几首可根据具体采用的声纹模型训练算法来决定)，训练得到声纹模型，并将同一用户的身份注册信息与声纹模型建立对应关系。如：A用户的用户名为Miss Lily，则将A的用户名Miss Lily与声纹模型建立对应关系。当识别到声纹模型为MissLily时，则会从数据库中调出跟Miss Lily有关的相关信息，并进行展示。其中所述相关信息至少包括下列中的一种：专属的界面皮肤、演唱历史、演唱用户对应的虚拟形象、演唱用户头像。

训练好声纹模型后，用户在使用点歌系统时，若有需要的话，可优选地通过键盘、会员卡或扫码等方式告知点歌系统其登录了具体的某个包厢。这样做的好处在于，针对该包厢中后续的歌曲演唱过程中，在开始歌曲演唱时，点歌系统可根据用户的登录信息，从服务器中获取所述用户的登录信息对应的声纹模型。即：若四个用户开了A包厢，在开始使用点歌系统进行点歌前，A\B\C\D四个用户在该包厢的点歌系统中进行登录，则点歌系统优选从服务器中只拉取了这四个用户的声纹模型，在后续的声纹信息与声纹模型匹配过程中，只用到这四个用户的声纹模型，这样的好处在于提高匹配速度的同时提高匹配的精准度。即：

所述“获取歌曲中每段原声演唱的起止时间段”前，还包括步骤：获取一个以上用户的登录信息，根据所述用户的登录信息从服务器中获取对应的声纹模型；

因考虑到有些用户嫌还要在点歌系统中进行登录比较麻烦，则亦可以直接将所述声纹信息与服务器中所有的声纹模型进行匹配。具体选择哪种方式，根据实际情况做出选择。

进一步地，为了使得最后呈现的结果更准确。还包括步骤：计算匹配度高的声纹模型的概率值，当所述概率值大于预设值时，将所述匹配度高的声纹模型标记为当前演唱用户。如：在实际演唱过程中，某次采集过程中，可能所有人在玩游戏没有在演唱，或只是某个用户在拿麦克风讲话，则还需计算匹配度高的声纹模型的概率值，当所述概率值大于预设值时，才认定匹配结果有效，反之则认定匹配结果无效。

在本实施方式中，对于训练声音模型与输入音频声纹信息的计算采用的是GMM-UBM算法。需要说明的是，亦可采取其他可行的任意算法。以下对GMM-UBM算法进行具体说明：

GMM-UBM算法，分为训练和识别两阶段。

训练阶段：

录制用户演唱的歌曲。其中歌曲数量、曲风、音域、信道类型越多越好。

比如，这里可以取3首。

计算MFCC(对应实施例中的声纹信息)；

用所有用户的MFCC数据训练UBM模型；

通过UBM模型，针对各用户的MFCC，训练得到各用户的GMM模型，当做该用户声纹模型(对应实施例中的声纹模型)；

识别阶段：

划定要识别的用户范围，比如上述实施例中，只取点歌前登记到系统的若干个用户；

实时采集麦克风音频，计算MFCC(对应实施例中的声纹信息)；

在用户范围内，将MFCC通过各GMM计算概率，选取最大概率对应的GMM所对应的用户，标记为当前演唱用户。

如图2所示，本发明还提供了一种计算机可读存储介质200。所述计算机可读存储介质200上存储有计算机程序，所述程序被处理器执行时执行以下步骤：

步骤S201：获取歌曲中每段原声演唱的起止时间段。

步骤S202：采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频，并计算所述输入音频的声纹信息。在各种数字视听场所中，用户点播好要演唱的歌曲，在歌曲播放的过程中，用户会通过音频输入设备(如麦克风)进行演唱，在用户演唱的过程中采集歌曲播放过程中原声演唱起止时间段中麦克风的输入音频。

步骤S203：将所述声纹信息与预存的声纹模型进行匹配。

步骤S204：优先将匹配度高的声纹模型对应的用户标记为当前演唱用户。

通过该方式，

如：

播放歌曲《爱你一万年》，获取每句歌词对应的原声演唱的起止时间段，即：当原声开始演唱第一句：寒风吹起细雨迷离，到第一句演唱结束的时间为歌曲播放到15秒至20秒，则在歌曲开始播放的前15秒不进行麦克风音频输入采集，15秒至20秒才进行麦克风音频输入采集，若原声演唱第一句完，5秒后才演唱第二句，同样的这中间5秒不进行麦克风音频输入采集，只有在有原声演唱的时间段才进行麦克风音频输入采集。这样做使得采集的音频数据量少，减少计算量，同时屏蔽了非演唱时间范围内的干扰音频，提高识别率。

GMM-UBM算法，分为训练和识别两阶段。

训练阶段：

比如，这里可以取3首。

计算MFCC(对应实施例中的声纹信息)；

用所有用户的MFCC数据训练UBM模型；

识别阶段：

实时采集麦克风音频，计算MFCC(对应实施例中的声纹信息)；

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种歌曲演唱过程中的用户身份识别方法，其特征在于，包括步骤：

获取歌曲中每段原声演唱的起止时间段；

将所述声纹信息与预存的声纹模型进行匹配；

优先将匹配度高的声纹模型对应的用户标记为当前演唱用户；

所述“获取歌曲中每段原声演唱的起止时间段”后还包括：获取每段原声演唱的起止时间段中原声演唱者的身份信息，统计原声演唱者个数，及每个原声演唱者演唱的起止时间段。

2.根据权利要求1所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，

所述“采集歌曲播放过程中原声演唱起止时间段中音频输入设备的输入音频”步骤前还包括：在数字视听场所播放歌曲。

3.根据权利要求1所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，

4.根据权利要求1所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，

5.根据权利要求1所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，

所述“获取歌曲中每段原声演唱的起止时间段”前，还包括步骤：

6.根据权利要求5所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，

7.根据权利要求1所述的一种歌曲演唱过程中的用户身份识别方法，其特征在于，还包括步骤：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7任一项所述的歌曲演唱过程中的用户身份识别方法。