CN113345470B

CN113345470B - 一种k歌内容审核方法、显示设备及服务器

Info

Publication number: CN113345470B
Application number: CN202110671502.7A
Authority: CN
Inventors: 王绍民; 郭伟; 张宁
Original assignee: Qingdao Jukanyun Technology Co ltd
Current assignee: Qingdao Jukanyun Technology Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2022-10-18
Anticipated expiration: 2041-06-17
Also published as: CN113345470A

Abstract

本实施例提供一种K歌内容审核方法、显示设备及服务器，服务器首先接收显示设备发送的第一文件审核请求，第一文件审核请求携带有第一音乐文件和第一音乐文件的特征，第一音乐文件为根据麦克风采集的用户输入的语音信号生成的文件。之后根据第一文件审核请求，从第一音乐文件中识别第一歌词文本，以及根据第一音乐文件的特征查找与第一音乐文件对应的原始歌词文本。计算第一歌词文本和原始歌词文本的第一匹配率，根据第一匹配率和预设匹配率的大小关系确定第一音乐文件的第一审核结果。最后将第一审核结果反馈至显示设备。从而实现对音乐文件内容质量的自动审核，提升K歌内容的审核效果。

Description

一种K歌内容审核方法、显示设备及服务器

技术领域

本申请涉及显示设备技术领域，尤其涉及一种K歌内容审核方法、显示设备及服务器。

背景技术

随着智能设备相关技术的发展，一些只能在特定场所实现的娱乐活动，逐渐实现便携化。例如，用户可在便携式终端或者家用智能设备上使用K歌应用。K歌应用是音乐播放器和录音软件的结合体，其可以录制用户的歌声，并将录制的歌声与伴奏进行混音得到音乐文件。用户可将得到的音乐文件上传到网络，以使更多人听到自己的歌声。

由于用户上传的音乐文件内容参差不齐，甚至可能包含违规、低俗内容，因此需要对用户上传的音乐文件进行审核。

目前的K歌应用通常是使用频谱分析的方法对声音的质量进行分析，识别出用户的音准把握程度、高低音分布、气息是否稳定等，而无法识别音乐文件内容质量，导致审核效果较差。

发明内容

本申请提供了一种K歌内容审核方法、显示设备及服务器，用于目前的K歌应用通常是使用频谱分析的方法对声音的质量进行分析，识别出用户的音准把握程度、高低音分布、气息是否稳定等，而无法识别音乐文件内容质量，导致审核效果较差的问题。

第一方面，本实施例提供一种服务器，用于执行：

接收显示设备发送的第一文件审核请求，其中，所述第一文件审核请求携带有第一音乐文件和所述第一音乐文件的特征，所述第一音乐文件为根据麦克风采集的用户输入的语音信号生成的文件；

根据所述第一文件审核请求，从所述第一音乐文件中识别第一歌词文本，以及根据所述第一音乐文件的特征查找与所述第一音乐文件对应的原始歌词文本；

计算所述第一歌词文本和所述原始歌词文本的第一匹配率，根据所述第一匹配率和预设匹配率的大小关系确定所述第一音乐文件的第一审核结果，以及将所述第一审核结果反馈至所述显示设备。

第二方面，本实施例提供一种显示设备，包括：

显示器；

麦克风；

控制器，用于执行：

响应于用户输入的用于指示上传音乐文件的控制指令，向服务器发送第一文件审核请求，其中，所述第一文件审核请求携带有第一音乐文件和所述第一音乐文件的特征，所述第一音乐文件为根据所述麦克风采集的用户输入的语音信号生成的文件；

从所述服务器接收反馈的所述第一音乐文件的第一审核结果，其中，所述第一审核结果为根据第一匹配率和预设匹配率的大小关系确定的，所述第一匹配率为计算的所述第一歌词文本和原始歌词文本的匹配率，所述第一歌词文本为从所述第一音乐文件识别的文本，所述原始歌词文本为根据所述第一音乐文件的特征查找的与所述第一音乐文件对应的文本。

第三方面，本实施例提供一种K歌内容审核方法，所述方法应用于服务器，包括：接收显示设备发送的第一文件审核请求，其中，所述第一文件审核请求携带有第一音乐文件和所述第一音乐文件的特征，所述第一音乐文件为根据麦克风采集的用户输入的语音信号生成的文件；

本实施例提供的服务器，首先接收显示设备发送的第一文件审核请求，第一文件审核请求携带有第一音乐文件和第一音乐文件的特征，第一音乐文件为根据麦克风采集的用户输入的语音信号生成的文件。之后根据第一文件审核请求，从第一音乐文件中识别第一歌词文本，以及根据第一音乐文件的特征查找与第一音乐文件对应的原始歌词文本。计算第一歌词文本和原始歌词文本的第一匹配率，根据第一匹配率和预设匹配率的大小关系确定第一音乐文件的第一审核结果。最后将第一审核结果反馈至显示设备。从而实现对音乐文件内容质量的自动审核，提升K歌内容的审核效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示图；

图6示出了根据一些实施例中K歌内容审核系统的框架示意图；

图7示出了根据一些实施例的一种K歌内容审核方法信令图；

图8示出了根据一些实施例的又一种K歌内容审核方法信令图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语″模块″是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端300A、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中，显示设备启动后可以直接进入预置的视频点播程序的界面，视频点播程序的界面可以如图5中所示，至少包括导航栏510和位于导航栏510下方的内容显示区，内容显示区中显示的内容会随导航栏中被选中控件的变化而变化。应用程序层中的程序可以被集成在视频点播程序中通过导航栏的一个控件进行展示，也可以在导航栏中的应用控件被选中后进行进一步显示。

在一些实施例中，显示设备启动后可以直接进入上次选择的信号源的显示界面，或者信号源选择界面，其中信号源可以是预置的视频点播程序，还可以是HDMI接口，直播电视接口等中的至少一种，用户选择不同的信号源后，显示器可以显示从不同信号源获得的内容。

目前用户可在便携式终端或者家用智能设备上使用K歌应用。K歌应用是音乐播放器和录音软件的结合体，其可以录制用户的歌声，并将录制的歌声与伴奏进行混音得到音乐文件。用户可将得到的音乐文件上传到网络，以使更多人听到自己的歌声。

为了解决上述问题，如图6所示，本申请提供一种K歌内容审核系统，该系统包括显示设备200和服务器400，显示设备200设置有麦克风，麦克风采集用户输入的语音信号。控制器根据麦克风采集的语音信号生成音乐文件，并根据音乐文件生成文件审核请求，之后将文件审核请求发送至服务器400。服务器400根据文件审核请求审核音乐文件，向显示设备反馈审核结果。

在一些实施例中，显示设备200的显示器上向用户展示有K歌应用的用户界面。当用户操作控制装置，在控制装置上按压相关按键，例如当选择器选择录制控件时，用户按压确认按键。显示设备响应于用户输入的指令，控制麦克风采集用户输入的语音信号。之后控制器根据用户输入的语音信号生成音乐文件。这里的音乐文件可以包括用户输入的语音信号和伴奏音乐。

在一些实施例中，K歌应用的用户界面上还设置有″完成录制″的控件。当用户操作控制装置，在控制装置上按压相关按键，例如当选择器选择″完成录制″控件时，用户按压确认键。显示设备响应于用户输入的指令，控制麦克风停止采集用户输入的语音信号。进一步，K歌应用的用户界面上展示的″完成录制″控件更新为″上传″控件。当选择器选择″上传″控件时，用户按压确认按键。显示设备响应于用户输入的指令，向服务器发送文件审核请求，该文件审核请求包括生成的第一音乐文件。

服务器接收文件审核请求后，从第一音乐文件中识别第一歌词文本。另外，显示设备在向服务器发送的文件审核请求，还携带有音乐文本的名称或者ID。例如，用户通过K歌应用录制歌曲″我爱你中国″，向服务器发送的文件审核请求则携带有歌曲名称″我爱你中国″。

进一步，服务器根据歌曲名称″我爱你中国″搜索对应的原始歌词文本。需要说明的是，目前有大量重复歌曲名称的歌曲，如果仅凭歌曲名称不能确定用户实际演唱的歌曲，还可以结合歌曲的原唱者名字、总时长等歌曲特征，确定最终实际演唱的歌曲。进而确定最终实际的原始歌词文本。

获得原始歌词文本之后，计算第一歌词文本与原始歌词文本的第一匹配率。再根据第一匹配率和预设匹配率的大小关系确定第一音乐文件的第一审核结果。最后将第一审核结果反馈至显示设备。第一匹配率可以指的是第一歌词文本与原始歌词文本歌词重合字数占总字数的比例。例如，第一歌词文本与原始歌词文本重合字数为336个字。原始歌词文本歌词总字数为350。则第一匹配率为336/350＝96％。

需要说明的是，预设匹配率可以为运营人员根据经验设置的，也可以根据大数据统计的。运营人员也可以根据K歌应用的使用情况，对预设匹配率进行修改，即对审核标准进行调整。

具体的，如果第一匹配率大于或等于预设匹配率，则确定第一审核结果为通过。即用户上传的第一音乐文件符合审核要求，服务器将第一音乐文件发布至K歌应用平台。同时将第一审核结果反馈至显示设备。显示设备接收到第一审核结果之后，可以在显示器上展示。例如，在显示器上展示″上传成功″提示语。

如果第一匹配率小于预设匹配率，则确定第一审核结果为不通过。即用户上传的第一音乐文件不符合审核要求，服务器不将第一音乐文件发布至K歌应用平台。同时将第一审核结果反馈至显示设备。显示设备接收到第一审核结果之后，可以在显示器上展示。例如，在显示器上展示″上传失败″提示语。

在一些实施例中，显示设备具有终端上传模块，由终端上传模块将第一音乐文件上传至服务器。

在一些实施例中，终端上传模块首先将第一音乐文件上传至文件模块。在对第一音乐文件进行语音识别之前，由降噪模块从文件模块中取出第一音乐文件，通过降噪模块对第一音乐文件进行降噪处理。具体的消除第一音乐文件中的背景音，过滤人声之外的噪声，从而优化音频质量，使得人声更加清晰。

在一些实施例中，在对第一音乐文件进行语音识别之前，可由声纹模块对第一音乐文件进行分析。具体的分析第一音乐文件的语言种类，如果语言种类为普通话，则在语音识别过程中，则采用相关普通话语音模型对第一音乐文件进行转化。如果语言种类不为普通话，则采用相关非普通话语音模型对第一音乐文件进行转化。

分析第一音乐文件的语言种类主要是识别用户的地域、方言等特征。将识别的结果作为语音识别模型的参数，从而提高语音转文本的正确率。例如，用户演唱歌曲时，使用的语言为粤语，则语音识别过程，则需要利用粤语相关的语音模型对第一音乐文件进行转化。

在一些实施例中，由审核模块从语音识别模块获取转化的第一歌词文本，从数据库中查找对应的原始歌词文本，并由审核模块计算第一歌词文本和原始歌词文本的第一匹配率。最后由审核模块输出第一审核结果。

在一些实施例中，运营人员可对审核结果进行人工抽查，如果出现误判断的情况，运营人员可在运营平台调整审核标准，以提高自动审核的准确率。

在一些实施例中，第一音乐文件可以包含音频文件和视频文件。例如，用户在使用K歌应用录制演唱过程后，生成的音乐文件既包含用户输入的语音信号，又包含通过摄像头采集的用户演唱过程的动态画面。因此，在从第一音乐文件中识别第一歌词文件之前，还需要对第一音乐文件进行分离，得到音频文件和视频文件。最后从音频文件中识别第一歌词文本。

在一些实施例中，计算第一歌词文本和原始歌词文本的匹配率的具体过程为：

第一歌词文本按照至少三个时间点切割为至少两个第一子歌词文本，同样的，原始歌词文本也按照至少三个时间点切割为至少两个原始子歌词文本。之后计算第一子歌词文本和在相同时间点的原始子歌词文本的子匹配率。最后根据多个子匹配率计算第一匹配率。

示例性的，用户使用K歌应用演唱歌曲″我爱你中国″，识别到的第一歌词文本如表1所示，被四个时间点切割为三个第一子歌词文本：分段1、分段2以及分段3。按照同样的时间点将原始歌词文本也切割为三个原始子歌词文本：分段1、分段2以及分段3。

表1第一歌词文本和原始歌词文本匹配示例

分段1中，第一子歌词文本和原始子歌词文本的交集为″我爱你″，交集字数为3个字。分段2中，第一子歌词文本和原始子歌词文本的交集为″我爱你春天蓬勃的秧苗″，交集字数为10个字。分段3中，第一子歌词文本和原始子歌词文本的交集为″我爱你秋日的硕果″，交集字数为8个字。原始歌词文本的总字数为25个字，总交集字数为21个字，则第一匹配率为84％。需要说明的是，上述示例中仅示出了部分歌词的匹配过程。在实际操作中，第一歌词文本和原始歌词文本的匹配，为整首歌曲的歌词文本的匹配。整首歌曲的歌词文本的匹配，与上述示例示出的匹配过程类似，此处不再赘述。

在一些实施例中，如果用户在演唱过程中，歌曲的某一段没有出声，例如上述示例中的，分段2没有出声，则识别出第一子歌词文本和原始子歌词文本的交集字数为0。

在一些实施例中，如果用户在演唱歌曲某一段过程中，如果时间轴不能完全与原歌曲时间轴重合，并且相差的时间点在可允许的时间范围内，则自动移动该分段的的时间轴，以使与原歌曲时间轴重合。例如，上述示例中的分段1，如果识别出的第一歌词文本在该分段中的时间轴为0.2S至2.5S，而原歌曲在该分段的时间轴为0S至2.3S，即用户在演唱过程中慢了0.2S。则自动将第一个词文本在该分段的时间轴向前移动0.2S，以使第一歌词文本的在该分段的时间轴，与原始歌词文本在该分段的时间轴上重合。从而提高文本匹配率的计算准确性。

需要说明的是，本申请可以不根据时间点对歌曲进行分段，也可以根据歌词的释义进行分段。例如，上述实施例中歌曲″我爱你中国″的分段1为″我爱你中国″，分段2为″我爱你春天蓬勃的秧苗″，每一分段都具有完整的释义。

在一些实施例中，用户个人K歌时，用户演唱的是整首歌曲，即第一歌词文本为整首歌曲的歌词文本，此时计算的第一匹配率为根据完整歌词文本审核。而在合唱场景中，用户演唱的不是整首歌曲，则不能根据完整歌词文本进行审核。

具体的，在合唱场景中，首先用户A发起合唱，用户A演唱的不是整首歌曲。因此，生成的第一文件审核请求还携带有分段标识。例如，整首歌曲被标识为A-J10段，用户A演唱了其中的B、F、I以及J段，分段标识即为B、F、I以及J。计算第一匹配率之前，需要根据该分段标识，从原始歌词文本中截取对应的第一分段文本。之后按照分段，计算第一歌词文本和第一分段文本的第一匹配率。

在合唱场景中，用户A上传第一音乐文件的审核结果必然为通过，合唱用户B才能根据用户A上传的第一音乐文件进行合唱的操作。用户B演唱了合唱歌曲的剩下部分之后，显示设备向服务器发送第二文件审核请求。需要说明的是，用户A和用户B可以是使用同一台显示设备，也可以使用不同的显示设备。用户B演唱之后，显示设备向服务器发送第二文件审核请求的具体过程，与上述实施例中过程类似，此处不再赘述。

用户B演唱之后，上传的合唱音乐文件包括第一音乐文件和第二音乐文件。第一音乐文件为用户A上传的音乐文件，第二音乐文件为用户B演唱部分的音乐文件。具体的，用户A演唱了合唱歌曲的B、F、I以及J段。则用户B演唱了合唱歌曲的A、C、D、E、G以及H段。

服务器首先从第二音乐文件中识别第二歌词文本，识别歌词文本的过程与上述实施例的过程类似，此处不再赘述。进一步，服务器根据分段标识将原始歌词中第一分段文本删除，得到第二分段文本。即将原始歌词中B、F、I以及J段删除，得到的第二分段文本为原始歌词的A、C、D、E、G以及H段。最后将第二歌词文本和第二分段文本进行第二匹配率的计算过程。第二匹配率的计算过程与第一匹配率的计算过程类似，此处不再赘述。

最后根据第二匹配率与预设匹配率的大小关系确定合唱音乐文件的第二审核结果。即确定用户B上传的音乐文件是否能够通过审核。同样的如果第二审核结果未通过，则可以在显示设备的用户界面上显示″上传成功″提示语。如果第二审核记过为未通过，则可以在显示设备的用户界面上显示″上传失败″提示语。

需要说明的是，在人数多于两人的合唱场景中，也可以按照上述过程对歌曲进行分段，按照分段分别确定不同用户上传的音乐文件的审核结果。本申请对于合唱场景中的人数不作限制。

在一些实施例中，在合唱歌曲的场景中，还有可能存在用户A与用户B上传的音乐文件分段有重叠部分的情况。例如，合唱歌曲需要用户A与用户B的和声进行演唱。此时，仍然首先确定用户A上传的第一音乐文件的审核结果为通过。之后在审核用户B上传的合唱音乐文件时，只需要根据分段标识删除原始歌词文本中用户A演唱的但是用户B未演唱的分段的歌词文本即可。

在一些实施例中，第一文件审核请求还携带有第一音乐文件的第一时长，在从第一音乐文件识别第一歌词文本之前，首先根据第一音乐文件的特征查找原始音乐文件的第二时长。计算第一时长与第二时长的时长匹配率，可以是计算第一时长占第二时长的比例。如果时长匹配率大于或等于预设时长匹配率，则执行从第一音乐文件中识别第一歌词文本。如果时长匹配率小于预设时长匹配率，则不进行接下来的文本匹配的操作。即如果用户演唱的时长过短，没有达到标准要求的时长，则直接判断审核结果为不通过。

本申请实施例提供一种K歌内容审核方法，如图7所示的K歌内容审核方法的信令图，所述方法包括以下步骤：

步骤一、显示设备通过麦克风采集用户输入的语音信号，根据语音信号生成第一音乐文件；

步骤二、显示设备向服务器发送第一文件审核请求，第一文件审核请求携带有第一一音乐文件和第一音乐文件的特征；

步骤三、服务器根据第一文件审核请求，从第一音乐文件中识别第一歌词文本，以及根据第一音乐文件的特征查找与第一音乐文件对应的原始歌词文本；

步骤四、根据第一歌词文本和原始歌词文本计算第一匹配率，根据第一匹配率和预设匹配率的大小关系确定第一音乐文件的第一审核结果，以及将第一审核结果反馈至显示设备。

基于上述方法实施例，本申请实施例提供又一种K歌内容审核方法，如图8所示的K歌内容审核方法的信令图。图8所示的实施例为合唱场景的实施例。

步骤一、显示设备通过麦克风采集用户A输入的语音信号，根据语音信号生成第一音乐文件；

步骤二、显示设备向服务器发送第一文件审核请求，第一文件审核请求携带有第一一音乐文件、第一音乐文件的特征以及分段标识；

步骤三、服务器根据第一文件审核请求，从第一音乐文件中识别第一歌词文本，根据第一音乐文件的特征查找与第一音乐文件对应的原始歌词文本，根据分段标识截取原始歌词文本中的第一分段文本；

步骤四、根据第一歌词文本和第一分段文本计算第一匹配率，根据第一匹配率和预设匹配率的大小关系确定第一音乐文件的第一审核结果，以及将第一审核结果反馈至显示设备；

步骤五、显示设备通过麦克风采集用户B输入的语音信号，根据语音信号生成合唱音乐文件，合唱音乐文件中包括第一音乐文件和第二音乐文件；

步骤六、从合唱音乐文件中提取第二音乐文件，以及从第二音乐文件中识别第二歌词文本；

步骤七、根据分段标识将原始歌词文本中的第一分段文本删除，得到第二分段文本；

步骤八、计算第二歌词文本和第二分段文本的第二匹配率，根据第二匹配率和预设匹配率确定合唱音乐文件的第二审核结果，以及将第二审核结果反馈至显示设备。

本申请各个实施例之间相同或相似的内容可相互参照，相关实施例不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，所述服务器，用于执行：

接收第一显示设备发送的第一文件审核请求，其中，所述第一文件审核请求携带有第一音乐文件、所述第一音乐文件的特征以及第一分段标识，所述第一音乐文件为根据麦克风采集的第一用户输入的语音信号生成的文件，所述第一分段标识表征整首音乐中用所述第一显示设备的所述第一用户演唱的范围；

计算所述第一歌词文本和第一分段文本的第一匹配率，其中，所述第一分段文本为根据所述第一分段标识截取的所述原始歌词文本中对应所述第一分段标识的文本；

根据所述第一匹配率和预设匹配率的大小关系确定所述第一音乐文件的第一审核结果，以及将所述第一审核结果反馈至所述第一显示设备；

在所述第一审核结果为通过时，接收第二显示设备发送的第二文件审核请求，其中，所述第二文件审核请求携带有合唱音乐文件和第二分段标识，所述合唱音乐文件中包括所述第一音乐文件和第二音乐文件，所述第二音乐文件为根据麦克风采集的第二用户输入的语音信号生成的，所述第二分段标识表征整首音乐中用所述第二显示设备的所述第二用户演唱的范围；

从所述合唱音乐文件中提取所述第二音乐文件，以及从所述第二音乐文件中识别第二歌词文本；

根据所述第二分段标识将所述原始歌词文本中的非和声歌词文本删除，得到第二分段文本，所述非和声歌词文本为所述原始歌词文本中对应所述第一分段标识且不对应所述第二分段标识的歌词文本；

计算所述第二歌词文本和所述第二分段文本的第二匹配率，根据所述第二匹配率和预设匹配率的大小关系确定所述合唱音乐文件的第二审核结果，以及将所述第二审核结果反馈至所述第二显示设备。

2.根据权利要求1所述的服务器，其特征在于，从所述第一音乐文件中识别第一歌词文本，具体为：

识别所述第一音乐文件的语言种类，在所述第一音乐文件的语言种类为普通话时，利用普通话语音模型将所述第一音乐文件转化为所述第一歌词文本；

在所述第一音乐文件的语言种类不为普通话时，利用非普通话语音模型将所述第一音乐文件转化为所述第一歌词文本。

3.根据权利要求1所述的服务器，其特征在于，所述第一音乐文件包括音频文件和视频文件，在从所述第一音乐文件中识别第一歌词文件之前，所述服务器，还用于执行：

从所述第一音乐文件中分离出所述音频文件和所述视频文件；

从所述第一音乐文件中识别第一歌词文本，具体为：从所述音频文件中识别所述第一歌词文本。

4.根据权利要求1所述的服务器，其特征在于，计算所述第一歌词文本和所述第一分段文本的匹配率，具体为：

将所述第一歌词文本按照至少三个时间点切割为至少两个第一子歌词文本，以及将所述第一分段文本按照同样的至少三个时间点切割为至少两个第一分段子歌词文本；

确定所述第一子歌词文本和在相同时间点的所述第一分段子歌词文本的交集字数，根据所述交集字数和所述第一分段子歌词文本的总字数计算所述第一匹配率。

5.根据权利要求1所述的服务器，其特征在于，所述第一文件审核请求还携带有所述第一音乐文件的第一时长，在从所述第一音乐文件中识别第一歌词文本之前，所述服务器，还用于执行：

根据所述第一音乐文件的特征查找对应原始音乐文件的第二时长，计算所述第一时长和所述第二时长的时长匹配率；

在所述时长匹配率大于或等于预设时长匹配率时，执行从所述第一音乐文件中识别第一歌词文本。

6.一种显示设备，其特征在于，包括：

显示器；

麦克风；

控制器，用于执行：

响应于用户输入的用于指示上传音乐文件的控制指令，向服务器发送第一文件审核请求，其中，所述第一文件审核请求携带有第一音乐文件、所述第一音乐文件的特征以及第一分段标识，所述第一音乐文件为根据所述麦克风采集的第一用户输入的语音信号生成的文件，所述第一分段标识表征整首音乐中的所述第一用户演唱的范围；

从所述服务器接收反馈的所述第一音乐文件的第一审核结果，其中，所述第一审核结果为根据第一匹配率和预设匹配率的大小关系确定的，所述第一匹配率为计算的第一歌词文本和第一分段文本的匹配率，所述第一分段文本为根据所述第一分段标识截取的原始歌词文本中对应所述第一分段标识的文本，所述第一歌词文本为从所述第一音乐文件识别的文本，所述原始歌词文本为根据所述第一音乐文件的特征查找的与所述第一音乐文件对应的文本；

在所述第一审核结果为通过时，响应于用户再次输入的用于指示上传音乐文件的控制指令，向服务器发送第二文件审核请求，其中，所述第二文件审核请求携带有合唱音乐文件和第二分段标识，所述合唱音乐文件中包括所述第一音乐文件和第二音乐文件，所述第二音乐文件为根据麦克风采集的第二用户输入的语音信号生成的，所述第二分段标识表征整首音乐中所述第二用户演唱的范围；

从所述服务器接收反馈的所述第二音乐文件的第二审核结果，其中，所述第二审核结果为根据第二匹配率和预设匹配率的大小关系确定的，所述第二匹配率为计算的第二歌词文本和第二分段文本的匹配率，所述第二分段文本为根据所述第二分段标识将所述原始歌词文本中的非和声歌词文本删除后得到的文本，所述非和声歌词文本为所述原始歌词文本中对应所述第一分段标识且不对应所述第二分段标识的歌词文本，所述第二歌词文本为从所述第二音乐文件识别的文本。

7.一种K歌内容审核方法，所述方法应用于服务器，其特征在于，包括：