CN111782868A - 一种音频处理方法、装置、设备及介质 - Google Patents

一种音频处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111782868A
CN111782868A CN202010640120.3A CN202010640120A CN111782868A CN 111782868 A CN111782868 A CN 111782868A CN 202010640120 A CN202010640120 A CN 202010640120A CN 111782868 A CN111782868 A CN 111782868A
Authority
CN
China
Prior art keywords
suspected
skill
segment
lyric
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010640120.3A
Other languages
English (en)
Inventor
李博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010640120.3A priority Critical patent/CN111782868A/zh
Publication of CN111782868A publication Critical patent/CN111782868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音频处理方法、装置、设备及介质,该方法包括:获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。这样判断不同疑似技巧片段是否为真正技巧片段的策略也就不相同,需要根据疑似技巧片段自身的技巧特征信息和对应的歌词特征信息具体确定,由此克服了各个疑似技巧片段采用相同的策略带来的准确率和召回率不平衡问题,进而在提高演唱技巧检测准确率的同时,提高检测的召回率。

Description

一种音频处理方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,特别涉及一种音频处理方法、装置、设备及介质。
背景技术
在声乐演唱中通常会包括一些可以反映演唱者演唱水平的演唱技巧,例如颤音和滑音。在相关的歌曲演唱技巧检测技术中主要是,先对待检测歌曲进行处理,得到疑似的技巧片段(颤音/滑音片段),然后根据特征信息以一套统一的过滤策略对各个疑似的技巧片段做一次过滤,得到最终的技巧片段。在实施本发明的过程中,发明人发现以上现有技术中至少存在如下问题,以一套统一的策略对各个疑似的技巧片段进行过滤,会导致在准确率较高时,检出的技巧片段数量占待检测歌曲中实际包括的技巧片段数量的比值较低,而检出的技巧片段数量占待检测歌曲中实际包括的技巧片段数量的比值较高时,准确率又较低,也即会造成检测的准确率和召回率之间的矛盾。因此,如何在歌曲演唱技巧检测中保证准确率和召回率之间的较好平衡是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种音频处理方法、装置、设备及介质,能够在提高演唱技巧检测准确率的同时,提高检测的召回率。其具体方案如下:
为实现上述目的,第一方面,提供了一种音频处理方法,包括:
获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;
确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;
根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
可选地,所述确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,包括:
将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段;
将所述目标歌词内容片段的歌词特征信息确定为所述第二特征信息。
可选地,所述将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段,包括:
将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,确定出所述疑似技巧片段对应的目标歌词内容片段。
可选地,所述将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,包括:
如果所述歌词内容片段以字为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配;
如果所述歌词内容片段以音素为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个音素对应的时间片段进行匹配。
可选地,所述将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配之前,还包括:
利用基于技巧特征构建的预设过滤条件对所述待检测歌曲对应的所有疑似技巧片段进行初步过滤。
可选地,所述根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段,包括:
根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求;
判断所述第二特征信息是否满足所述预设歌词特征要求;
根据判断结果确定所述疑似技巧片段对应的预设技巧特征要求;
判断所述第一特征信息是否满足所述预设技巧特征要求,以确定所述疑似技巧片段是否为目标技巧片段。
可选地,所述根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求,包括:
当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第一预设歌词特征要求;所述第一预设歌词特征要求为所述目标歌词内容片段需为一句歌词的最后一个片段;
和/或,当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第二预设歌词特征要求;所述第二预设歌词特征要求为所述目标歌词内容片段的片段时长需大于或等于目标预设时长阈值。
可选地,所述根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求,包括:
当所述疑似技巧片段为疑似滑音片段时,则确定所述疑似技巧片段对应的第三预设歌词特征要求;所述第三预设歌词特征要求为所述目标歌词内容片段的数量需为1。
可选地,所述确定所述疑似技巧片段对应的第三预设歌词特征要求之后,还包括:
如果所述预设格式歌词文件中包括音调数据,则确定所述疑似技巧片段对应的第四预设歌词特征要求;所述第四预设歌词特征要求为所述目标歌词内容片段对应的音调需属于预设音调范围。
第二方面,提供了一种音频处理装置,包括:
初步检测模块,用于获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;
特征信息确定模块,用于确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;
技巧片段确定模块,用于根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
第三方面,提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的音频处理方法。
第四方面,提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的音频处理方法。
在本申请中,先获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息,然后确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,再根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。由此可见,本申请在获取到疑似技巧片段之后,再确定出疑似技巧片段对应的目标歌词内容片段的歌词特征信息,然后便可以结合每个疑似技巧片段的技巧特征信息和其对应的歌词特征信息确定对应的疑似技巧片段是否为真正的技巧片段,这样判断不同疑似技巧片段是否为真正技巧片段的策略也就不相同,需要根据疑似技巧片段自身的技巧特征信息和对应的歌词特征信息具体确定,由此克服了各个疑似技巧片段采用相同的判断策略带来的准确率和召回率不平衡问题,进而在提高演唱技巧检测准确率的同时,提高检测的召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的音频处理方案所适用的系统框架示意图;
图2为本申请公开的一种音频处理方法流程图;
图3为本申请公开的一种音频处理方法流程图;
图4为本申请公开的一种具体的音频处理方法流程图;
图5为本申请公开的一种具体的音频处理方法部分流程图;
图6为本申请公开的一种颤音片段语谱图;
图7为本申请公开的一种滑音片段语谱图;
图8为本申请公开的一种滑音片段语谱图;
图9为本申请公开的一种音频处理装置结构示意图;
图10为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,在歌曲演唱技巧检测技术中主要是,在对待检测歌曲进行处理之后,得到疑似的技巧片段之后,再根据疑似技巧片段的特征采用统一的过滤策略对各个疑似的技巧片段进行过滤,得到最终的技巧片段,这样可能出现由于以一套统一的策略对各个疑似的技巧片段进行过滤,而造成检测的准确率和召回率之间矛盾的问题,也即检测的准确率和召回率之间很难达到平衡。为了克服上述技术问题,本申请提供了一种音频处理方法,能够在提高演唱技巧检测准确率的同时,提高检测的召回率。
为了便于理解,先对本申请的音频处理方法所适用的系统框架进行介绍。可以理解的是,本申请实施例中并不对计算机设备的数量进行限定,其可以是多个计算机设备共同协作完成音频处理功能。在一种可能的情况中,请参考图1。由图1可知,该硬件组成框架可以包括:第一计算机设备101、第二计算机设备102。第一计算机设备101与第二计算机设备102之间通过网络103实现通信连接。
在本申请实施例中,在此不具体限定第一计算机设备101与第二计算机设备102的硬件结构,第一计算机设备101与第二计算机设备102两者进行数据交互,实现音频处理功能。进一步,本申请实施例中并不对网络103的形式进行限定,如,网络103可以是无线网络(如WIFI、蓝牙等),也可以是有线网络。
其中,第一计算机设备101和第二计算机设备102可以是同一种计算机设备,如第一计算机设备101和第二计算机设备102均为服务器;也可以是不同类型的计算机设备,如,第一计算机设备101可以是终端或智能电子设备,第二计算机设备102可以服务器。在又一种可能的情况中,可以利用计算能力强的服务器作为第二计算机设备102来提高数据处理效率及可靠性,进而提高音频处理效率。同时利用成本低、应用范围广的终端或智能电子设备作为第一计算机设备101,用于实现第二计算机设备102与用户之间的交互。
举例说明,请参考图2,终端在获取到待检测歌曲之后,对待检测歌曲进行处理,得到疑似技巧片段数据,并将疑似技巧片段数据通过网络发送给服务器。服务器在接收到疑似技巧片段数据之后,确定出疑似技巧片段对应的目标歌词内容片段的第二特征信息,然后根据所述疑似技巧片段数据中的第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。服务器在得到目标技巧片段后还可以将目标技巧片段通过网络发送给终端。
参见图3所示,本申请实施例公开了一种音频处理方法,该方法包括:
步骤S11:获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息。
在实际应用中,需要先获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息,所述第一特征信息包括但不限于疑似技巧片段的片段时长、幅度范围以及周期数等。所述疑似技巧片段对应着一定的时间片段,例如,一个疑似技巧片段为待检测歌曲的第10秒到第11秒之间的片段。
在一种具体的实施过程中,当前计算机设备可以先获取待检测歌曲,然后对所述待检测歌曲进行初步检测得到对应的疑似技巧片段数据。具体的,当前计算机设备可以先获取所述待检测歌曲,然后从所述待检测歌曲中分离出干声,再从所述干声中提取出基频序列,接着对所述基频序列进行运算分析,得到疑似技巧片段数据。其中,当前计算机设备获取所述待检测歌曲包括通过自身输入单元获取所述待检测歌曲,如当前计算机设备通过语音采集模块采集所述待检测歌曲,或者当前计算机设备从歌曲库中获取所述待检测歌曲。当前计算机设备也可以通过网络(可以是有线网络或者是无线网络)获取其他设备发送的待检测歌曲,当然,本申请实施例中并不限定其他设备(如其他计算机设备)获取所述待检测歌曲的方式。例如,其他设备(如终端)可以接收用户通过语音输入模块输入的待检测歌曲。
在一种具体的实施过程中,当前计算机设备可以通过网络直接获取其他设备发送的、对待检测歌曲进行初步检测之后得到的疑似技巧片段数据,当前计算机设备在获取到所述疑似技巧片段数据之后,便可以进行后续的处理。在此并不限定其他设备(如其他计算机设备)获取所述待检测歌曲的方式。例如,其他设备(如终端)可以从预设的歌曲库中获取所述待检测歌曲。
步骤S12:确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息。
在具体的实施过程中,当前计算机设备获取到所述疑似技巧片段数据之后,还需要确定出所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,其中,所述目标歌词内容片段是指时间片段与所述疑似技巧片段的时间片段有重叠的歌词内容片段,所述第二特征信息包括但不限于所述目标歌词内容片段的片段时长、数量、位置等,所述位置表示所述目标歌词内容片段是否为一句歌词的最后一个片段。所述歌词内容片段为对所述待检测歌曲中的歌词内容进行切分之后得到的片段,在实际应用中一个歌词内容片段可以是一个字,也可以是一个音素。
在实际场景中,歌曲中的演唱技巧通常会出现在特定的歌词上,所以可以利用疑似技巧片段在待检测歌曲中对应的歌词内容片段的歌词特征信息辅助判断疑似技巧片段是否为最终的技巧片段。例如,通过分析颤音的发生场景可以得到颤音主要具有以下特点,一是颤音呈周期性变化且幅度稳定;二是颤音多发生在一句歌词中的最后一个字上。由此可以得到出现颤音片段的歌词满足以下特点,大多为在一句歌词中的最后一个字,且该字的持续时间一般较长。
在具体的实施过程中,可以先根据各个所述疑似技巧片段对应的时间片段确定出各个所述疑似技巧片段出现在所述待检测歌曲上的位置,再判断出现所述疑似技巧片段的位置上是否出现歌词内容片段,如果出现歌词内容片段,则将出现的歌词内容片段确定为所述目标歌词内容片段,并将出现的歌词内容片段的数量、片段时长以及位置作为所述目标歌词内容片段的第二特征信息。
例如,一个疑似技巧片段对应的时间片段为10-11秒,则该疑似技巧片段出现在待检测歌曲的第10秒到第11秒之间,然后确定所述待检测歌曲的第10秒到第11秒之间是否出现歌词内容片段,如出现歌词内容片段,则将出现的词内容片段确定为目标歌词内容片段,并确定出现的歌词内容片段的数量为多少、出现的歌词内容片段的片段时长,以及待检测歌曲的第10秒到第11秒是否为一句歌词的最后一个片段,以得到所述第二特征信息。
步骤S13:根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
在得到所述位置信息之后,还需要根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
在具体的实施过程中,可以先判断所述第二特征信息是否满足对应的预设要求,并根据判断结果确定所述第一特征信息需要满足的预设要求,然后再判断所述第一特征信息是否满足对应的预设要求,由此确定出所述疑似技巧片段是否为目标技巧片段。
在本申请中,先获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息,然后确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,再根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。由此可见,本申请在获取到疑似技巧片段之后,再确定出疑似技巧片段对应的目标歌词内容片段的歌词特征信息,然后便可以结合每个疑似技巧片段的技巧特征信息和其对应的歌词特征信息确定对应的疑似技巧片段是否为真正的技巧片段,这样判断不同疑似技巧片段是否为真正技巧片段的策略也就不相同,需要根据疑似技巧片段自身的技巧特征信息和对应的歌词特征信息具体确定,由此克服了各个疑似技巧片段采用相同的判断策略带来的准确率和召回率不平衡问题,进而在提高演唱技巧检测准确率的同时,提高检测的召回率。
参见图4所示,本申请实施例公开了一种具体的音频处理方法,该方法包括:
步骤S21:获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及各个所述疑似技巧片段的第一特征信息。
步骤S22:将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段。
在实际应用中,可以将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段。所述预设格式歌词文件为预先存储的歌词文件,在需要利用所述预设格式歌词文件时,读取所述预设格式歌词文件即可。
其中,将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段,可以包括:将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,确定出所述目标歌词内容片段。其中,所述歌词内容片段可以以字为粒度进行划分,也可以以音素为粒度进行划分。其中,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。例如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
在实际应用中,将所述预设格式歌词文件,可以包括:QRC格式歌词文件,或LRC(lyric,歌词)格式歌词文件。QRC格式歌词文件可以用来实现卡拉OK功能,并且歌词显示精准定位到逐字,每个字带有对应的时间标签,使歌词同步显示更准确。LRC格式歌词文件既可以用来实现卡拉OK功能,又能以普通的文字处理软件查看、编辑。除此之外,还可以将所述预设格式歌词文件还可以其他的格式,在此不做具体限定。
在第一种具体的实施方式中,根据所述歌词内容片段的划分粒度不同,将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配可以包括:如果所述歌词内容片段以字为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配,以确定出所述目标歌词内容片段。
在一种具体的实施方式中,在将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配的过程中,可以以疑似技巧片段的时间片段作为基准进行匹配。
例如,先取出第一个疑似技巧片段作为基准,将所述第一个疑似技巧片段的时间片段与第一个字的时间片段进行匹配,如果所述第一个字的开始时间大于所述第一个疑似技巧片段的结束时间,则表示所述第一个疑似技巧片段在所述第一个字之前,丢弃所述第一个疑似技巧片段,更新下一个疑似技巧片段作为基准进行匹配,直到没有需要匹配的字或疑似技巧片段;如果所述第一个字的结束时间小于所述第一个疑似技巧片段的开始时间,则表示所述第一个字位于所述第一个疑似技巧片段之前,尚未到达所述第一个疑似技巧片段,并更新下一个字进行匹配,直到没有需要匹配的字或疑似技巧片段;除以上两种情况外,都表示所述第一个疑似技巧片段的时间片段与所述第一个字的时间片段有重叠,则确定重叠部分时长占当前疑似技巧片段的片段时长的比值,并在所述比值小于或等于第一预设比值时,则更新下一个字与当前疑似技巧片段进行匹配,直到需要匹配的字的开始时间大于当前疑似技巧片段的结束时间,或没有需要匹配的字;在所述比值大于或等于第二预设比值时,则表明当前疑似技巧片段与当前字匹配,可以更新下一个待匹配的疑似技巧片段作为基准进行匹配,直至没有需要匹配的疑似技巧片段或字。其中,所述第一预设比值小于所述第二预设比值。这样便可以确定出时间片段与当前疑似技巧片段的时间片段有重叠的字包括哪些。
在当前疑似技巧片段匹配完成之后,将时间片段与当前疑似技巧片段的时间片段有重叠的字都确定为当前疑似技巧片段对应的目标歌词内容片段。
在上述过程中,在所述比值小于或等于第一预设比值时,需要更新下一个字与当前疑似技巧片段进行匹配,直到需要匹配的字的开始时间大于当前疑似技巧片段的结束时间,或没有需要匹配的字,是因为很多情况下,一个疑似技巧片段所在位置可能出现1个以上的字,例如,一个疑似技巧片段的时间片段为第10秒到第15秒,有一个字的时间片段是第10秒到第14秒,有另外一个字的时间片段为第14秒到第16秒,则判定该疑似技巧片段的时间片段之内出现了2个字。
例如,待检测歌曲中包括6个字,按照出现在所述待检测歌曲中的先后顺序分别是字1、字2、字3、字4、字5、字6,所述待检测歌曲对应的疑似技巧片段为两个疑似技巧片段,按照出现在所述待检测歌曲中的先后顺序分别是疑似技巧片段A、疑似技巧片段B。先以疑似技巧片段A为基准,将疑似技巧片段A对应的时间片段与字1对应的时间片段进行匹配,如果疑似技巧片段A的结束时间小于字1的开始时间,那么疑似技巧片段A在字1的前面,丢弃疑似技巧片段A,以疑似技巧片段B为基准进行匹配;如果疑似技巧片段A的开始时间大于字1的结束时间,那么疑似技巧片段A在字1的后面,丢弃字1,继续拿字2来匹配;除了这两个情况,都表示疑似技巧片段A和字1有重叠,则确定重叠部分时长占疑似技巧片段A的片段时长的比值,如果所述比值大于或等于所述第二预设比值,那么表明疑似技巧片段A和字1匹配,可以更新疑似技巧片段B做基准,然后字2出来匹配,重复上述流程,如果所述小于或等于所述第一预设比值,则更新字2与疑似技巧片段A进行匹配,直到需要匹配的字的开始时间大于当前疑似技巧片段的结束时间,或没有需要匹配的字。并在匹配结束之后,将时间片段与疑似技巧片段A的时间片段有重叠的字确定为疑似技巧片段A对应的目标歌词内容片段,将时间片段与疑似技巧片段B的时间片段有重叠的字确定为疑似技巧片段B对应的目标歌词内容片段。
在另一种具体的实施方式中,在将各个所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配的过程中,还可以以字的时间片段作为基准进行匹配。
例如,先取出需要匹配的第一个字作为基准,再将第一个疑似技巧片段的时间片段与所述第一个字的时间片段进行匹配,如果所述第一个字的结束时间小于所述第一个疑似技巧片段的开始时间,则表示所述第一个字位于所述第一个疑似技巧片段之前,尚未到达所述第一个疑似技巧片段,并更新下一个字作为基准进行匹配,直到没有需要匹配的字或疑似技巧片段;如果所述第一个字的开始时间大于所述第一个疑似技巧片段的结束时间,则表示所述第一个疑似技巧片段在所述第一个字之前,丢弃所述第一个疑似技巧片段,更新下一个疑似技巧片段进行匹配,直到没有需要匹配的字或疑似技巧片段;除以上两种情况外,都表示所述第一个疑似技巧片段的时间片段与所述第一个字的时间片段有重叠,则确定重叠部分时长占当前字的片段时长的比值,并在所述比值小于或等于第三预设比值时,则更新下一个疑似技巧片段与当前字进行匹配,直到需要匹配的疑似技巧片段的开始时间大于当前字的结束时间,或没有需要匹配的疑似技巧片段;在所述比值大于或等于第四预设比值时,则表明当前疑似技巧片段与当前字匹配,可以更新下一个待匹配字作为基准,直至没有需要匹配的疑似技巧片段或字。其中,所述第三预设比值小于所述第四预设比值。
在当前字匹配完成之后,记录当前字对应的目标信息,其中,所述目标信息包括时间片段与当前字的时间片段有重叠的疑似技巧片段的时间信息,所述时间信息包括开始时间和接收时间。在完成各个字以及各个疑似技巧片段的匹配之后,统计各个字对应的所述目标信息,便可以确定出所述疑似技巧片段对应的目标歌词内容片段。具体的,确定任一疑似技巧片段对应的目标歌词内容片段,包括:遍历各个字对应的目标信息,判断当前字对应的目标信息中是否出现该疑似技巧片段的时间信息,如果出现,则将当前字确定为该疑似技巧片段对应的目标歌词内容片段。
在上述过程中,在所述比值小于或等于第三预设比值时,需要更新下一个疑似技巧片段与当前字进行匹配,直到需要匹配的疑似技巧片段的开始时间大于当前字的结束时间,或没有需要匹配的疑似技巧片段,是因为一个字对应的时间片段之内会出现多个疑似技巧片段。例如,“天青色等烟雨而我在等你”中的“天”字,假设“天”字的歌词文件标注的时间是10-10.6秒,现有3个疑似技巧片段:10-10.3秒、10.32-10.35秒、10.35-10.55秒,如果已经把10-10.3秒映射到“天”字,那么后面10.32-10.35秒、10.35-10.55秒这两个疑似技巧片段实际就无需再比对,因为还在“天”字的时间范围以内。
例如,待检测歌曲中包括6个字,按照出现在所述待检测歌曲中的先后顺序分别是字1、字2、字3、字4、字5、字6,所述待检测歌曲对应的疑似技巧片段为两个疑似技巧片段,按照出现在所述待检测歌曲中的先后顺序分别是疑似技巧片段A、疑似技巧片段B。先以字1为基准,将疑似技巧片段A对应的时间片段与字1对应的时间片段进行匹配,如果疑似技巧片段A的结束时间小于1的开始时间,那么疑似技巧片段A在字1的前面,丢弃疑似技巧片段A,继续拿疑似技巧片段B来匹配;如果疑似技巧片段A的开始时间大于字1的结束时间,那么疑似技巧片段A在字1的后面,丢弃字1,更新字2基准进行匹配;除了这两个情况,都表示疑似技巧片段A和字1有重叠,则确定重叠部分时长占字1的片段时长的比值,如果所述比值大于或等于所述第四预设比值,那么疑似技巧片段A和字1匹配,更新字2做基准,然后拿疑似技巧片段B出来匹配,重复上述流程,如果所述比值小于或等于所述第三预设比值,将字1与疑似技巧片段B进行匹配,直到需要匹配的疑似技巧片段的开始时间大于当前疑似技巧片段的结束时间,或没有需要匹配的字。
在当前字匹配完成之后,记录当前字对应的目标信息,并在6各个字均匹配完成之后,对得到的6个目标信息进行统计,以确定疑似技巧片段A以及疑似技巧片段B对应的目标歌词内容片段。
在第二种具体的实施方式中,根据所述歌词内容片段的划分粒度不同,将所述疑似技巧片段与所述预设格式歌词文件中的歌词内容片段进行匹配可以包括:如果所述歌词内容片段以音素为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个音素对应的时间片段进行匹配。在得到所述预设格式歌词文件的过程中,可以对歌词进行音素级别的划分,音素级别的划分相比于以字为粒度的划分更精确,可以得到更多信息,以辅助判断疑似技巧片段是否为最终的技巧片段。所述歌词内容片段以音素为粒度进行切分时的匹配方法可以与前述匹配方法相同。
除以上两种切分方法之外,还可以采用其他精度更高的切分方法,这样可以减小因时间片段对应的开始时间或结束时间错误导致的疑似技巧片段被误判的概率,进一步提高检测的准确率。
在实际的实施过程中,所述预设格式歌词文件中还可以包括所述待检测歌曲中歌词内容的音调数据。这样可以利用音调数据辅助判断疑似技巧片段是否为目标技巧片段,提高技巧检测的准确率。
步骤S23:将所述目标歌词内容片段的歌词特征信息确定为所述第二特征信息。
在确定出所述疑似技巧片段对应的目标歌词内容片段之后,便可以将所述目标歌词内容片段的歌词特征信息确定为所述第二特征信息。
在实际实施过程中,确定出所述疑似技巧片段对应的目标歌词内容片段,相应地便可以得到所述目标歌词内容片段的数量,以及各个所述目标歌词内容片段对应的片段时长,再确定出所述目标歌词内容片段的位置,便可以得到所述第二特征信息。其中,所述位置表示所述目标歌词片段是否为一句歌词的最后一个片段。
步骤S24:根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
可以理解的是,在确定出所述第二特征信息之后,便可以根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
在实际的实施过程中,在确定出所述目标技巧片段之后,还可以对所述目标技巧片段进行存储,以便再次获取到所述疑似技巧片段数据,并且需要对获取到的疑似技巧片段数据进行技巧检测时,可以直接调用所述目标技巧片段作为检测结果。这样可以避免对相同的疑似技巧片段数据再次进行检测,节约了计算资源。
在实际应用中,在将所述疑似技巧片段与各个所述歌词内容片段进行匹配之前,还可以包括:利用基于技巧特征构建的预设过滤条件对所述待检测歌曲对应的所有疑似技巧片段进行初步过滤,得到过滤后保留下的疑似技巧片段。再将各个过滤后保留下的疑似技巧片段与所述歌词内容片段进行匹配。具体的,可以利用预设过滤幅度范围对各个所述疑似技巧片段进行初步过滤,将幅度范围属于所述预设过滤幅度范围的疑似技巧片段作为过滤后保留下的疑似技巧片段;和/或,利用预设过滤时长阈值对各个所述疑似技巧片段进行初步过滤,将片段时长大于或等于所述预设过滤时长阈值的疑似技巧片段作为过滤后保留下的疑似技巧片段;和/或,利用预设过滤周期数阈值对各个所述疑似技巧片段进行初步过滤,将周期数大于或等于所述预设过滤周期数阈值的疑似技巧片段作为过滤后保留下的疑似技巧片段。在将所述疑似技巧片段与所述歌词内容片段进行匹配之前,先对所述疑似技巧片段进行初步过滤可以将最终成为所述目标技巧片段的可能性较低的疑似技巧片段过滤掉,从而减少匹配过程中的工作量,加快数据处理速度,提高整个音频处理的效率。
可见,本实施例通过将疑似技巧片段与待检测歌曲对应的预设格式歌词文件中的各个歌词内容片段进行匹配,可以准确地确定出各个疑似技巧片段对应的歌词内容片段,得到对应的歌词内容片段的特征信息,保障了后续基于歌词内容片段的特征信息判断疑似技巧片段是否为最终的技巧片段过程的顺利实施,从而解决了单纯依靠疑似技巧片段自身特征信息进行判断带来的准确率低问题。
参见图5所示,根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段,具体可以包括:
步骤S31:根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求。
在根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段的过程中,可以先根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求。
所述疑似技巧类型包括但不限于疑似颤音和疑似滑音。参见图6所示,为颤音在语谱图中的表现图。其中,语谱图是指音频信号短时频谱变换后的二维能量图,横坐标为时间,纵坐标为频率,坐标点值为语音数据能量。由此可以看出,颤音大多呈周期性变化、幅度稳定且持续时间较长。参见图7所示,为滑音在语谱图中的表现图。由此可以看出,滑音大多包括平稳-上扬/下降-平稳3个部分。
在第一种具体的实施过程中,当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第一预设歌词特征要求,其中,所述第一预设歌词特征要求为所述目标歌词内容片段需为一句歌词的最后一个片段。在实际过程中,颤音大多发生在一句歌词的最后一个片段上,所以可以先将发生在一句歌词的最后一个片段上确定为疑似颤音片段对应的预设歌词特征要求。此外,所述第一预设歌词特征要求还可以包括所述目标歌词内容片段的数量需为1。
在第二种具体的实施过程中,当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第二预设歌词特征要求,其中,所述第二预设歌词特征要求为所述目标所述歌词内容片段的片段时长需大于或等于目标预设时长阈值。在实际过程中,颤音大多发生在一个持续时间较长的歌词内容片段上,所以也可以将发生在时长大于或等于相应阈值的歌词片段上确定为疑似颤音片段的预设歌词特征要求。
在具体的实施过程中,可以只将目标歌词内容片段需为一句歌词的最后一个片段设置为所述预设歌词特征要求,也可以只将目标歌词内容片段的片段时长需大于或等于目标预设时长阈值设置为所述预设歌词特征要求,也可以将目标歌词内容片段需为一句歌词的最后一个片段以及目标歌词内容片段的片段时长需大于或等于目标预设时长阈值均设置为所述预设歌词特征要求。
在第三种具体的实施过程中,当所述疑似技巧片段为疑似滑音片段时,则确定所述疑似技巧片段对应的第三预设歌词特征要求,其中,所述第三预设歌词特征要求为所述目标歌词内容片段的数量需为1。在实际场景中,滑音指两个音之间不直接作音程的跳跃,而是连续地变化音高以连接两音,演唱中通常是发生在一个字内,所以可以先将发生在一个歌词内容片段上确定为疑似滑音片段的预设歌词特征要求,这样可以提高检测出的滑音的准确率。
在实际实施过程中,需要将发生在一个歌词内容片段上确定为疑似滑音片段的预设歌词特征要求,是因为有时两个歌词之间的过渡片段会被误判为真正的滑音片段,例如图8所示的疑似滑音片段,所述疑似滑音片段包括平稳-上扬-平稳三个部分,符合滑音的特征。但是实际上所述疑似滑音片段对应的是歌曲《爱情转移》中“住过多少旅馆”中的“少”和“旅”两个字,所以所述疑似滑音片段并不是真正的滑音片段。
在实际实施过程中,当所述疑似技巧片段为疑似滑音片段时,如果所述预设格式歌词文件中包括音调数据,则确定所述疑似技巧片段对应的第四预设歌词特征要求,其中,所述第四预设歌词特征要求为所述目标歌词内容片段对应的音调需属于预设音调范围,所述预设音调范围为第四声和/或第二声。在实际过程中,滑音大多发生在音调为第二声或第四声的字上,所以在所述预设格式歌词文件中包括音调数据时,将可以发生在第二声或第四声的歌词内容片段上确定为滑音片段的预设歌词特征要求。
此外,由于滑音一般包括平稳-上扬/下降-平稳3个部分,所以在所述疑似技巧片段为滑音片段时,还可以确定所述疑似技巧片段对应的第五预设歌词特征要求,其中,所述第五预设歌词特征要求为所述目标歌词内容片段的片段时长与所述疑似技巧片段的片段时长的差值需大于第一预设差值阈值,和/或,所述目标歌词内容片段的开始时间与所述疑似技巧片段的开始时间的差值需大于或等于第二差值阈值,和/或,所述目标歌词内容片段的结束时间与所述疑似技巧片段的结束时间的差值需大于或等于第三差值阈值。也即,可以要求滑音片段的时长不要太接近对应的字的时长,和/或,滑音片段的开始时间不要太靠近对应的字的开始时间,和/或,滑音片段的结束时间不要太靠近对应的字的结束时间,这样可以保证最终得到的滑音片段可以完整地包括平稳-上扬/下降-平稳3个部分,符合滑音片段的要求。
步骤S32:判断所述第二特征信息是否满足所述预设歌词特征要求。
在确定出所述疑似技巧片段对应的预设歌词特征要求之后,还需要判断所述第二特征信息是否满足所述预设歌词特征要求,以便确定所述疑似技巧片段对应的第一特征信息需要满足的要求。在实际实施过程中,根据疑似技巧片段对应的歌词特征不同,需要满足的技巧片段特征要求也不相同,所以需要先判断疑似技巧片段对应的第二特征信息是否满足对应的预设歌词特征要求。
例如,在疑似技巧片段为疑似颤音片段,且确定出疑似技巧片段对应所述第一预设歌词特征要求时,则需要判断所述疑似技巧片段的第二特征信息是否满足所述第一预设歌词特征要求。
步骤S33:根据判断结果确定所述疑似技巧片段对应的预设技巧特征要求。
在判断所述第二特征信息是否满足所述预设歌词特征要求之后,便可以根据判断结果确定所述疑似技巧片段对应的预设技巧特征要求。
具体的,当所述疑似技巧片段为疑似颤音片段,且所述疑似技巧片段对应的第二特征信息满足所述预设歌词特征要求时,则确定所述疑似技巧片段对应的第一预设技巧特征要求,其中,所述第一预设技巧特征要求为所述第一特征信息中的片段时长需大于或等于第一片段时长阈值。此外,所述第一预设技巧特征要求还可以包括第一特征信息中其他信息需要满足的要求,例如,所述第一特征信息中的颤动周期数需大于或等于第一周期数阈值,和/或,所述第一特征信息中的颤动幅度需属于第一预设幅度范围等。
在实际的实施过程中,所述疑似技巧片段对应的第二特征信息满足所述预设歌词特征要求时,还可以根据所述第二特征信息满足的具体预设歌词特征要求确定相应的预设技巧特征要求,例如,一个疑似技巧片段的第二特征信息满足所述第一预设歌词特征要求时,将疑似技巧片段的片段时长需大于3秒确定为其对应的预设技巧特征要求,而一个疑似技巧片段的第二特征信息满足所述第二预设歌词特征要求时,则将疑似技巧片段的片段时长需大于4秒确定为其对应的预设技巧特征要求。
当所述疑似技巧片段为疑似颤音片段,且所述疑似技巧片段对应的第二特征信息不满足所述预设歌词特征要求时,确定所述疑似技巧片段对应的第二预设技巧特征要求,其中,所述第二预设技巧特征要求为所述第一特征信息中的片段时长需大于或等于第二片段时长阈值。此外,所述第二预设技巧特征要求还可以包括所述第一特征信息中其他信息需要满足的要求,例如,所述第一特征信息中的颤动周期数需大于或等于第二周期数阈值,和/或,所述第一特征信息中的颤动幅度需属于第二预设幅度范围等。其中,所述第二片段时长阈值大于所述第一片段时长阈值,和/或,所述第二周期数阈值大于所述第一周期数阈值,和/或,第二预设幅度范围小于所述第一预设幅度范围。在疑似技巧片段的第二特征信息不满足预设歌词特征要求时,疑似技巧片段为真正的技巧片段的概率相对较小,所以不满足预设歌词特征要求时对应的预设技巧特征要求比满足预设歌词特征要求时的要严格。
同样地,所述疑似技巧片段对应的第二特征信息不满足所述预设歌词特征要求时,还可以根据所述第二特征信息不满足的具体预设歌词特征要求确定相应的预设技巧特征要求。
当所述疑似技巧片段为疑似滑音片段时,预设技巧特征要求的确定方法与疑似颤音片段相同。例如,所述疑似技巧片段为疑似滑音片段,且所述疑似技巧片段对应的第二特征信息满足所述预设歌词特征要求时,确定所述疑似技巧片段对应的第三预设技巧特征要求,其中,所述第三预设技巧特征要求为所述第一特征信息中的片段时长需大于或等于第三片段时长阈值,在具体的实施过程中,所述第三预设技巧特征要求还可以包括其他的第一特征信息需要满足的要求。
在具体的实施过程中,当所述疑似技巧片段为疑似滑音片段,且对应的第二特征信息满足预设歌词特征要求时,也可以直接判定所述疑似技巧片段为目标技巧片段,而不需要再确定对应的预设技巧特征要求以及判断第一特征信息是否满足预设技巧特征要求,例如,一个疑似技巧片段为疑似滑音片段,且其对应的第二特征信息满足前述的第三预设歌词特征要求,则直接将该疑似技巧片段确定为目标技巧片段,不再需要再确定该疑似技巧片段对应的预设技巧特征要求,以及判断该疑似技巧片段的第一特征信息是否满足对应的预设技巧特征要求。
步骤S34:判断所述第一特征信息是否满足所述预设技巧特征要求,以确定所述疑似技巧片段是否为目标技巧片段。
相应地,在确定出所述预设特征信息要求之后,便可以判断所述第一特征信息是否满足所述预设技巧特征要求,以确定所述疑似技巧片段是否为目标技巧片段。
可见,本实施例中对于不同的疑似技巧片段需要根据对应的技巧片段特征信息和对应的歌词内容片段的特征信息确定其是否为最终的技巧片段,这样不同的技巧片段需要满足的要求也就不相同,可以根据各个疑似技巧片段自身的特征信息和对应的歌词内容的特征信息去确定,解决了现有的各个技巧片段需要达到统一要求才能确定为最终技巧片段带来的准确率和召回率不平衡问题,从而在提高准确率的同时,提高了检测召回率。
下面以某款K歌APP对用户演唱歌曲进行评级的过程为例,对本申请中的技术方案进行说明。
假设这款K歌APP通过安装该款K歌APP的智能设备的语音输入模块采集到用户演唱的待检测歌曲《你的答案》,该K歌APP对待检测歌曲《你的答案》进行初步检测,得到该待检测歌曲对应的疑似技巧片段数据。
其中,所述疑似技巧片段数据包括6个疑似技巧片段以及各个疑似技巧片段对应的第一特征信息,6个疑似技巧片段包括4个疑似滑音技巧片段、2个疑似颤音技巧片段。这4个疑似滑音技巧片段分别是片段C、片段D、片段E、片段F,且片段C的第一特征信息为片段时长为3秒;片段D的第一特征信息为片段时长为4秒、片段E的第一特征信息为片段时长为2秒、片段F的第一特征信息为片段时长为1秒。2个疑似颤音技巧片段分别是片段M、片段N,且片段M的第一特征信息为片段时长为5秒、片段N的第一特征信息为片段时长为8秒。
预设歌词特征要求包括疑似滑音片段对应的字数量需为1,疑似颤音片段对应的字需为一句歌词的最后一个字。预设技巧特征要求包括:当疑似滑音片段的第二特征信息满足预设歌词特征要求时,疑似滑音片段的片段时长需大于或等于3秒,当疑似滑音片段的第二特征信息满足不预设歌词特征要求时,该疑似滑音片段不为目标技巧片段。当疑似颤音片段的第二特征信息满足预设歌词特征要求时,疑似颤音片段的片段时长需大于或等于4秒,当疑似颤音片段的第二特征信息不满足预设歌词特征要求时,疑似颤音片段的片段时长需大于或等于7秒。
然后确定出这6个疑似技巧片段对应的字,得到这6个疑似技巧片段对应的第二特征信息。片段C对应的第二特征信息包括片段C对应的字的数量为1;片段D对应的第二特征信息包括片段D对应的字的数量为2;片段E对应的第二特征信息包括片段E对应的字的数量为2、片段F对应的第二特征信息为出现在该片段所在位置处的字的数量为1;片段M对应的第二特征信息包括片段M对应的字为一句歌词的最后一个字;片段N对应的第二特征信息包括片段N对应的字不是一句歌词的最后一个字。
根据6个疑似技巧片段对应的第一特征信息和第二特征信息,以及预设歌词特征要求和预设技巧特征要求,则可以确定出片段C、片段M、片段N为目标技巧片段。
将片段C、片段M、片段N与数据库中保存的原唱歌手版的《你的答案》对应的参考技巧片段进行匹配,根据匹配结果对该用户演唱的待检测歌曲《你的答案》评级。如果有三个片段能匹配上,则该用户演唱的待检测歌曲《你的答案》为SSS级,如果任意两个片段能匹配上,则该用户演唱的待检测歌曲《你的答案》为SS级,如果只有任意一个片段能匹配上,则该用户演唱的待检测歌曲《你的答案》为S级。
参见图9所示,本申请实施例公开了一种音频处理装置,包括:
初步检测模块11,用于获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;
特征信息确定模块12,用于确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;
技巧片段确定模块13,用于根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
在本申请中,先获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息,然后确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,再根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。由此可见,本申请在获取到疑似技巧片段之后,再确定出疑似技巧片段对应的目标歌词内容片段的歌词特征信息,然后便可以结合每个疑似技巧片段的技巧特征信息和其对应的歌词特征信息确定对应的疑似技巧片段是否为真正的技巧片段,这样判断不同疑似技巧片段是否为真正技巧片段的策略也就不相同,需要根据疑似技巧片段自身的技巧特征信息和对应的歌词特征信息具体确定,由此克服了各个疑似技巧片段采用相同的判断策略带来的准确率和召回率不平衡问题,进而在提高演唱技巧检测准确率的同时,提高检测的召回率。
在一些具体的实施例中,所述特征信息确定模块12,具体用于:
第一信息确定单元,用于将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段;
第二信息确定单元,用于将所述目标歌词内容片段的歌词特征信息确定为所述第二特征信息
在一些具体的实施例中,所述第一信息确定单元,具体用于
将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,确定出所述目标歌词内容片段
在一些具体的实施例中,所述特征信息确定模块12,具体用于:在所述歌词内容片段以字为粒度进行切分时,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配;在所述歌词内容片段以音素为粒度进行切分时,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个音素对应的时间片段进行匹配。
在一些具体的实施例中,所述音频处理装置,还包括:
过滤模块,用于利用基于技巧特征构建的预设过滤条件对所述待检测歌曲对应的所有疑似技巧片段进行初步过滤。
在一些具体的实施例中,所述技巧片段确定模块13,具体包括:
第一要求确定单元,用于根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求;
第一判断单元,用于判断所述第二特征信息是否满足所述预设歌词特征要求;
第二要求确定单元,用于根据判断结果确定所述疑似技巧片段对应的预设技巧特征要求;
第二判断单元,用于判断所述第一特征信息是否满足所述预设技巧特征要求,以确定所述疑似技巧片段是否为目标技巧片段。
在一些具体的实施例中,所述第一要求确定单元,具体用于:
当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第一预设歌词特征要求;所述第一预设歌词特征要求为所述目标歌词内容片段需为一句歌词的最后一个片段;
和/或,当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第二预设歌词特征要求;所述第二预设歌词特征要求为所述目标歌词内容片段的片段时长需大于或等于目标预设时长阈值。
在一些具体的实施例中,所述第一要求确定单元,还可以用于:
当所述疑似技巧片段为疑似滑音片段时,则确定所述疑似技巧片段对应的第三预设歌词特征要求;所述第三预设歌词特征要求为所述目标歌词内容片段的数量需为1。
在一些具体的实施例中,所述第一要求确定单元,还可以用于:
如果所述预设格式歌词文件中包括音调数据,则确定所述疑似技巧片段对应的第四预设歌词特征要求;所述第四预设歌词特征要求为所述目标歌词内容片段对应的音调需属于预设音调范围。
进一步的,本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。
图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的音频处理方法中的相关步骤。另外,本实施例中的电子设备20具体可以为服务器。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及音频数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量音频数据223的运算与处理,其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的音频处理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种音频数据。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述任一实施例中公开的音频处理方法。
其中,关于上述音频处理方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种音频处理方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种音频处理方法,其特征在于,包括:
获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;
确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;
根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
2.根据权利要求1所述的音频处理方法,其特征在于,所述确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息,包括:
将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段;
将所述目标歌词内容片段的歌词特征信息确定为所述第二特征信息。
3.根据权利要求2所述的音频处理方法,其特征在于,所述将所述疑似技巧片段映射到所述待检测歌曲对应的预设格式歌词文件上,确定出所述目标歌词内容片段,包括:
将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,确定出所述目标歌词内容片段。
4.根据权利要求3所述的音频处理方法,其特征在于,所述将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配,包括:
如果所述歌词内容片段以字为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个字对应的时间片段进行匹配;
如果所述歌词内容片段以音素为粒度进行切分,则将所述疑似技巧片段对应的时间片段与所述预设格式歌词文件中的各个音素对应的时间片段进行匹配。
5.根据权利要求3所述的音频处理方法,其特征在于,所述将所述疑似技巧片段与所述预设格式歌词文件中的各个歌词内容片段进行匹配之前,还包括:
利用基于技巧特征构建的预设过滤条件对所述待检测歌曲对应的所有疑似技巧片段进行初步过滤。
6.根据权利要求2至5任一项所述的音频处理方法,其特征在于,所述根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段,包括:
根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求;
判断所述第二特征信息是否满足所述预设歌词特征要求;
根据判断结果确定所述疑似技巧片段对应的预设技巧特征要求;
判断所述第一特征信息是否满足所述预设技巧特征要求,以确定所述疑似技巧片段是否为目标技巧片段。
7.根据权利要求6所述的音频处理方法,其特征在于,所述根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求,包括:
当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第一预设歌词特征要求;所述第一预设歌词特征要求为所述目标歌词内容片段需为一句歌词的最后一个片段;
和/或,当所述疑似技巧片段为疑似颤音片段时,则确定所述疑似技巧片段对应的第二预设歌词特征要求;所述第二预设歌词特征要求为所述目标歌词内容片段的片段时长需大于或等于目标预设时长阈值。
8.根据权利要求6所述的音频处理方法,其特征在于,所述根据所述疑似技巧片段的疑似技巧类型确定所述疑似技巧片段对应的预设歌词特征要求,包括:
当所述疑似技巧片段为疑似滑音片段时,则确定所述疑似技巧片段对应的第三预设歌词特征要求;所述第三预设歌词特征要求为所述目标歌词内容片段的数量需为1。
9.根据权利要求8所述的音频处理方法,其特征在于,所述确定所述疑似技巧片段对应的第三预设歌词特征要求之后,还包括:
如果所述预设格式歌词文件中包括音调数据,则确定所述疑似技巧片段对应的第四预设歌词特征要求;所述第四预设歌词特征要求为所述目标歌词内容片段对应的音调需属于预设音调范围。
10.一种音频处理装置,其特征在于,包括:
初步检测模块,用于获取对待检测歌曲进行初步检测得到的疑似技巧片段数据,其中,所述疑似技巧片段数据包括疑似技巧片段以及所述疑似技巧片段的第一特征信息;
特征信息确定模块,用于确定所述疑似技巧片段对应的目标歌词内容片段的第二特征信息;
技巧片段确定模块,用于根据所述第一特征信息和所述第二特征信息确定所述疑似技巧片段是否为目标技巧片段。
11.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至9任一项所述的音频处理方法。
12.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的音频处理方法。
CN202010640120.3A 2020-07-06 2020-07-06 一种音频处理方法、装置、设备及介质 Pending CN111782868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010640120.3A CN111782868A (zh) 2020-07-06 2020-07-06 一种音频处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010640120.3A CN111782868A (zh) 2020-07-06 2020-07-06 一种音频处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN111782868A true CN111782868A (zh) 2020-10-16

Family

ID=72757993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010640120.3A Pending CN111782868A (zh) 2020-07-06 2020-07-06 一种音频处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111782868A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377992A (zh) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 歌曲分段方法、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181164A (zh) * 2010-07-20 2013-06-26 汤姆森许可公司 用于技巧模式操作中内容呈现的方法
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
US10068573B1 (en) * 2016-12-21 2018-09-04 Amazon Technologies, Inc. Approaches for voice-activated audio commands
CN109789329A (zh) * 2016-10-11 2019-05-21 富士通株式会社 评分辅助程序、评分辅助装置以及评分辅助方法
CN109979485A (zh) * 2019-04-29 2019-07-05 北京小唱科技有限公司 音频评价方法和装置
CN110010162A (zh) * 2019-02-28 2019-07-12 华为技术有限公司 一种歌曲录制方法、修音方法及电子设备
CN110517699A (zh) * 2019-08-23 2019-11-29 平安科技(深圳)有限公司 信息隐写方法、装置、设备及存储介质
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103181164A (zh) * 2010-07-20 2013-06-26 汤姆森许可公司 用于技巧模式操作中内容呈现的方法
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN109789329A (zh) * 2016-10-11 2019-05-21 富士通株式会社 评分辅助程序、评分辅助装置以及评分辅助方法
US10068573B1 (en) * 2016-12-21 2018-09-04 Amazon Technologies, Inc. Approaches for voice-activated audio commands
CN110010162A (zh) * 2019-02-28 2019-07-12 华为技术有限公司 一种歌曲录制方法、修音方法及电子设备
CN109979485A (zh) * 2019-04-29 2019-07-05 北京小唱科技有限公司 音频评价方法和装置
CN110517699A (zh) * 2019-08-23 2019-11-29 平安科技(深圳)有限公司 信息隐写方法、装置、设备及存储介质
CN110808065A (zh) * 2019-10-28 2020-02-18 北京达佳互联信息技术有限公司 副歌检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宇翔,金泽宇,蔡莲红: "面向视唱评价的声乐自动标注系统", 清华大学学报, vol. 51, no. 12, 15 December 2011 (2011-12-15), pages 1808 - 1813 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377992A (zh) * 2021-06-21 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 歌曲分段方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109086026B (zh) 播报语音的确定方法、装置和设备
CN107103915A (zh) 一种音频数据处理方法以及装置
US20220310051A1 (en) Rhythm Point Detection Method and Apparatus and Electronic Device
CN110070884B (zh) 音频起始点检测方法和装置
CN110010159B (zh) 声音相似度确定方法及装置
CN108711415B (zh) 纠正伴奏和干音之间的时延的方法、装置及存储介质
WO2020015411A1 (zh) 一种训练改编水平评价模型、评价改编水平的方法及装置
CN108877779B (zh) 用于检测语音尾点的方法和装置
CN112216259A (zh) 人声伴奏对齐方法及装置
CN112967738A (zh) 人声检测方法、装置及电子设备和计算机可读存储介质
CN113223485B (zh) 节拍检测模型的训练方法、节拍检测方法及装置
CN111782868A (zh) 一种音频处理方法、装置、设备及介质
CN105895079A (zh) 语音数据的处理方法和装置
CN107133344B (zh) 一种数据处理方法及装置
CN106372257A (zh) 一种乐器检索方法和装置
CN110070891A (zh) 一种歌曲识别方法、装置以及存储介质
CN114038481A (zh) 一种歌词时间戳生成方法、装置、设备及介质
CN113393830B (zh) 混合声学模型训练及歌词时间戳生成方法、设备、介质
CN115641874A (zh) 音频处理方法、设备及存储介质
CN108597503A (zh) 测试语料生成方法、装置、设备及可读写存储介质
CN114154574A (zh) 节拍重拍联合检测模型的训练及节拍重拍联合检测方法
CN114238684A (zh) 一种资源搜索方法及电子设备
CN109495786B (zh) 视频处理参数信息的预配置方法、装置及电子设备
CN112071287A (zh) 用于生成歌谱的方法、装置、电子设备和计算机可读介质
CN113744721B (zh) 模型训练方法、音频处理方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination