CN112231512A

CN112231512A - 歌曲标注检测方法、装置和系统及存储介质

Info

Publication number: CN112231512A
Application number: CN202011122814.4A
Authority: CN
Inventors: 崔君君; 李秀林
Original assignee: Databaker Beijng Technology Co ltd
Current assignee: Databaker Beijng Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-15
Anticipated expiration: 2040-10-20
Also published as: CN112231512B

Abstract

本发明提供一种歌曲标注检测方法、装置和系统及存储介质。方法包括：获取拼音字典、针对同一待标注歌曲所标注的MusicXML文件和Interval文件；从MusicXML文件中提取第一歌词特征，该特征包括MusicXML文件中记录的每个歌词的拼音；基于拼音字典和第一歌词特征提取第一音素序列，该序列包括MusicXML文件中记录的每个歌词的每个音素；从Interval文件中提取第二歌词特征，该特征包括第二音素序列，该序列包括Interval文件中记录的每个音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较；对于任一音素对，在该音素对中的音素不一致的情况下，输出第一错误反馈信息。可以自动检测MusicXML文件和Interval文件的歌曲标注结果是否一致，有助于提高歌曲标注的效率和准确度。

Description

歌曲标注检测方法、装置和系统及存储介质

技术领域

本发明涉及语音处理技术领域，具体地，涉及一种歌曲标注检测方法、装置和系统及存储介质。

背景技术

歌曲合成作为语音合成的一个分支，具有较为广阔的发展前景。歌曲合成采用的算法模型在训练时需要大量的标注数据。对于歌曲标注来说，既需要标注歌曲的词谱信息，也需要标注歌曲中每个发音的声韵母时长信息。

歌曲标注的质量对于歌曲合成至关重要，现有的歌曲标注一般采用标准的音乐扩展标记语言(Music Extensible Markup Language,MusicXML)文件记录歌曲的歌词以及歌曲的谱、调、节奏等乐谱信息，采用音程(Interval)文件来记录歌曲中每个音素发音的时长，这两个文件的标注琐碎容易出错，且是分别标注，会有标注不一致或者漏标错标等问题。现有的歌曲标注结果几乎都是靠人工手动查询的，没有系统的检测工具,导致歌曲标注效率低下，且错误率高。

发明内容

为了至少部分地解决现有技术中存在的问题，提供一种歌曲标注检测方法、装置和系统及存储介质。

根据本发明一个方面，提供一种歌曲标注检测方法，包括：获取拼音字典、针对同一待标注歌曲所标注的MusicXML文件和Interval文件，其中，MusicXML文件记录有待标注歌曲的歌词的拼音，Interval文件记录有待标注歌曲的音素；从MusicXML文件中提取第一歌词特征，第一歌词特征包括MusicXML文件中记录的每个歌词的拼音；基于拼音字典和第一歌词特征提取第一音素序列，第一音素序列包括MusicXML文件中记录的每个歌词的每个音素；从Interval文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括Interval文件中记录的每个音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较；对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

示例性地，第二歌词特征还包括第二音素序列中的每个第二音素的起始时间和结束时间，第一错误反馈信息包括对应音素对的起始时间和结束时间，其中，每个音素对的起始时间和结束时间用该音素对中的第二音素的起始时间和结束时间表示。

示例性地，在从MusicXML文件中提取第一歌词特征之后，歌曲标注检测方法还包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；其中，第一错误反馈信息包括与对应音素对中的第一音素相对应的上下文音素集合。

示例性地，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较之前，歌曲标注检测方法还包括：对于待标注歌曲的第i句歌词，将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中，其中，0＜i≤N，其中，N为待标注歌曲的歌词总句数；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较包括：对于第i个合并文件，将该合并文件中的第一音素和第二音素一一对应地进行比较。

示例性地，第一错误反馈信息包括对应音素对所属的合并文件的文件名。

示例性地，在从MusicXML文件中提取第一歌词特征之后，歌曲标注检测方法还包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中包括：如果检测到该第i句歌词所对应的第一音素中存在至少一个连续的第一特殊标注音素，则从至少一个连续的第一特殊标注音素中的第一个第一特殊标注音素所对应的上下文音素集合中查找位于第一个第一特殊标注音素前方的上文音素；在上文音素是英文音素的情况下，当将该第i句歌词所对应的第一音素全部提取到第i个合并文件中之后，跳过对第一音素的提取操作直至该i句歌词所对应的第二音素全部提取到第i个合并文件中为止；在上文音素是中文音素的情况下，将该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中。

示例性地，在将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中的过程中，歌曲标注检测方法还包括：如果该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素中的一者已全部提取到第i个合并文件中，并且另一者仅部分提取到第i个合并文件中，则输出第二错误反馈信息，第二错误反馈信息用于指示该第j句歌词存在漏标情况。

示例性地，在从MusicXML文件中提取第一歌词特征之后，歌曲标注检测方法还包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较包括：如果第一音素序列中存在至少一个连续的第二特殊标注音素，则从至少一个连续的第二特殊标注音素中的第一个第二特殊标注音素所对应的上下文音素集合中查找位于第一个第二特殊标注音素前方的上文音素；在上文音素是中文音素的情况下，确定至少一个连续的第二特殊标注音素与对应的至少一个第二音素一致，其中，对应的至少一个第二音素是第二音素序列中的与至少一个连续的第二特殊标注音素一一对应的至少一个第二音素。

示例性地，在从MusicXML文件中提取第一歌词特征之后，歌曲标注检测方法还包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较包括：如果第一音素序列中存在至少一个连续的第二特殊标注音素，则从至少一个连续的第二特殊标注音素中的第一个第二特殊标注音素所对应的上下文音素集合中查找位于第一个第二特殊标注音素前方的上文音素；在上文音素是中文音素的情况下，将至少一个连续的第二特殊标注音素一一对应地替换为至少一个替换音素，其中，至少一个替换音素中的每一个均与上文音素相同；将至少一个替换音素与对应的至少一个第二音素一一对应地进行比较，以判断每个替换音素与对应的第二音素是否一致，其中，对应的至少一个第二音素是第二音素序列中的与至少一个连续的第二特殊标注音素一一对应的至少一个第二音素。

示例性地，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较之前，歌曲标注检测方法还包括：对于待标注歌曲的第j句歌词，如果在MusicXML文件中检测到位于该第j句歌词之后的至少一个连续的第一休止符，并在Interval文件中检测到位于该第j句歌词之后的第二休止符，则将至少一个连续的第一休止符确定为第一停顿位置，将第二休止符确定为与第一停顿位置相对应的第二停顿位置，将位于该第j句歌词与第一停顿位置之间的第一音素与位于该第j句歌词与第二停顿位置之间的第二音素对应起来，其中，0＜j≤N，其中，N为待标注歌曲的歌词总句数。

示例性地，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较之前，歌曲标注检测方法还包括：对于待标注歌曲的第k句歌词，将第一音素序列中的该第k句歌词所对应的第一音素的数目与第二音素序列中的该第k句歌词所对应的第二音素的数目进行比较，如果数目不一致，则跳过与该第k句歌词相关的音素比较操作和/或输出第三错误反馈信息，第三错误反馈信息用于指示该第k句歌词存在英文或该第k句歌词存在漏标情况，其中，0＜k≤N，其中，N为待标注歌曲的歌词总句数。

示例性地，在从MusicXML文件中提取第一歌词特征之前，歌曲标注检测方法还包括：检测MusicXML文件的格式是否存在异常；如果存在异常，则输出第一异常信息，第一异常信息用于指示MusicXML文件的格式存在异常；其中，从MusicXML文件中提取第一歌词特征在MusicXML文件的格式不存在异常的情况下执行。

示例性地，在从Interval文件中提取第二歌词特征之前，歌曲标注检测方法还包括：检测Interval文件的格式是否存在异常；如果存在异常，则输出第二异常信息，第二异常信息用于指示Interval文件的格式存在异常其中，从Interval文件中提取第二歌词特征在Interval文件的格式不存在异常的情况下执行。

根据本发明另一方面，还提供一种歌曲标注检测装置，包括：获取模块，用于获取拼音字典、针对同一待标注歌曲所标注的MusicXML文件和Interval文件，其中，MusicXML文件记录有待标注歌曲的歌词的拼音，Interval文件记录有待标注歌曲的音素；第一提取模块，用于从MusicXML文件中提取第一歌词特征，第一歌词特征包括MusicXML文件中记录的每个歌词的拼音；第二提取模块，用于基于拼音字典和第一歌词特征提取第一音素序列，第一音素序列包括MusicXML文件中记录的每个歌词的每个音素；第三提取模块，用于从Interval文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括Interval文件中记录的每个音素；比较模块，用于将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较；输出模块，用于对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

根据本发明另一方面，还提供一种歌曲标注检测系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述歌曲标注检测方法。

根据本发明另一方面，还提供一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述歌曲标注检测方法。

根据本发明实施例的歌曲标注检测方法、装置和系统及存储介质，可以自动检测标注好的MusicXML文件和Interval文件的歌曲标注结果是否一致，并在标注不一致时及时输出错误反馈信息，这样可以方便标注人员及时修改标注结果，从而有助于有效提高歌曲标注的效率和准确度。

在发明内容中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

以下结合附图，详细说明本发明的优点和特征。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述，用来解释本发明的原理。在附图中，

图1示出根据本发明一个实施例的歌曲标注检测方法的示意性流程图；

图2a示出根据本发明一个实施例的MusicXML文件的格式示例；

图2b示出根据本发明一个实施例的Interval文件的格式示例；

图3示出根据本发明一个实施例的歌曲标注检测流程的示意图；

图4示出根据本发明一个实施例的歌曲标注检测装置的示意性框图；以及

图5示出根据本发明一个实施例的歌曲标注检测系统的示意性框图。

具体实施方式

在下文的描述中，提供了大量的细节以便能够彻底地理解本发明。然而，本领域技术人员可以了解，如下描述仅示例性地示出了本发明的优选实施例，本发明可以无需一个或多个这样的细节而得以实施。此外，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行详细描述。

如上所述，目前在歌曲标注领域，没有完整的检测工具来检测标注结果的正确性，都是依靠人工检测，或者依靠科研人员在使用标注数据过程中遇到问题再反馈给数据标注人员进行修正，这样检测的过程效率低下且准确度不高，也会对科研人员的科研效率产生影响。为了至少部分地解决上述技术问题，本发明实施例提供一种歌曲标注检测方法，采用自动化的方法检测歌曲标注结果中的错误，并及时进行错误反馈以提醒标注人员修改，这样可以大大提高歌曲标注的效率和准确度。

图1示出根据本发明一个实施例的歌曲标注检测方法100的示意性流程图。如图1所示，歌曲标注检测方法100包括步骤S110、S120、S130、S140、S150和S160。

在步骤S110，获取拼音字典、针对同一待标注歌曲所标注的MusicXML文件和Interval文件，其中，MusicXML文件记录有待标注歌曲的歌词，Interval文件记录有待标注歌曲的音素。

待标注歌曲可以是任何歌曲。可以通过人工标注的方式对待标注歌曲分别进行MusicXML文件和Interval文件的标注。标注人员可以是诸如音乐相关专业的人员。待标注歌曲标注完成之后，其标注数据，即MusicXML文件和Interval文件，可以用于训练歌曲合成模型，后续在进行歌曲合成时，可以利用训练好的歌曲合成模型基于输入的歌词合成期望的歌曲。

示例性地，MusicXML文件可以包括歌曲中的歌词和乐谱信息，乐谱信息可以包括与各个歌词对应的拼音(即发音)、歌曲的音符、节拍数、休止符以及其他乐谱信息等。示例性地，Interval文件可以包括歌曲中的每个音素以及每个音素的起始时间和结束时间。图2a示出根据本发明一个实施例的MusicXML文件的格式示例，图2b示出根据本发明一个实施例的Interval文件的格式示例。可以结合图2a和2b理解MusicXML文件和Interval文件包含的内容。

除获取MusicXML文件和Interval文件之外，还可以获取预先存储的拼音字典。拼音字典可以用于记录每个拼音所包含的音素，例如，其可以记录拼音“wo”包含两个音素“w”和“o”。后续可以在拼音字典中查找MusicXML文件中记录的每个歌词的音素。通过拼音字典可以非常方便地自动识别和确定每个歌词的音素。

在步骤S120，从MusicXML文件中提取第一歌词特征，第一歌词特征包括MusicXML文件中记录的每个歌词的拼音。

第一歌词特征和下述第二歌词特征中的第一、第二仅用于区分目的，其并不表示顺序或具有其他特殊含义，其他包含第一、第二等词的术语类似，不再赘述。

如上所述，MusicXML文件可以记录待标注歌曲中的每个歌词以及对应歌词的拼音。因此，可以从MusicXML文件中提取待标注歌曲的每个歌词的拼音。例如，《猜不透》这首歌的MusicXML文件中可以记录第一个歌词“猜”以及其拼音“cai”。可以从MusicXML文件中提取上述拼音“cai”。

在步骤S130，基于拼音字典和第一歌词特征提取第一音素序列，所述第一音素序列包括MusicXML文件中记录的每个歌词的每个音素。

沿用上述示例，可以从单个歌词“猜”的拼音“cai”中提取两个音素，即声母“c”和韵母“ai”。对于待标注歌曲中的每个歌词的拼音，均可以执行这样的操作，从而将歌曲中的各个音素拆分出来，获得一个音素序列，该音素序列包含拆分出的所有音素(称为第一音素)。

可选地，在提取每个第一音素的同时，还可以提取每个第一音素的上下文音素，获得每个第一音素所对应的上下文音素集合。例如，可以提取每个第一音素前方两个第一音素和后方两个第一音素，获得包括两个上文音素和两个下文音素的上下文音素集合。比较可取的是，每个第一音素的上下文音素集合还可以包括该第一音素本身，例如，每个第一音素的上下文音素集合可以包括该第一音素的两个上文音素、该第一音素、以及该第一音素的两个下文音素。对于整首歌的第一个歌词的第一个音素来说，可以在标注时在其前方添加预定数目(例如两个)的起始音素，这些起始音素可以用预设的起始符号表示。上述第一个歌词的第一个音素的上文音素可以包括前方的预定数目的起始音素。也就是说，在提取上下文音素时，将起始音素按照正常音素那样作为上文音素进行提取。类似地，可以在整首歌的最后一个音素后方添加预定数目(例如两个)的结束音素，这些结束音素也可以用预设的结束符号表示。在提取上下文音素时，可以将结束音素按照正常音素那样作为下文音素进行提取。可选地，还可以在提取第一音素序列之前，自动在整首歌的第一个歌词前方添加预定数目的起始音素，并在整首歌的最后一个歌词后方添加预定数目的结束音素，后续从第一个歌词的第一个音素开始进行第一音素序列及每个第一音素的上下文音素集合的提取，并至最后一个歌词的最后一个音素为止结束第一音素序列以及每个第一音素的上下文音素集合的提取。

提取每个第一音素的上下文音素集合之后，这些上下文音素集合可以在后续输出给标注人员查看，便于标注人员快速定位任意音素，尤其是标注错误的音素所在的位置。此外，上下文音素集合还可以帮助识别英文歌词或中文歌词的出现，这将在下文描述。

在步骤S140，从Interval文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括Interval文件中记录的每个音素。

如上所述，Interval文件可以记录待标注歌曲中的每个音素以及音素的起始时间和结束时间，可以从Interval文件中依次提取出每个音素(称为第二音素)，获得这些音素组成的第二音素序列。

可选地，在提取每个第二音素的同时，还可以提取每个第二音素的上下文音素，获得每个第二音素所对应的上下文音素集合。提取第二音素所对应的上下文音素集合与上述提取第一音素所对应的上下文音素集合的实现方式和技术效果类似，不再赘述。

在步骤S150，将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较。

可以按照时间顺序，将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地关联起来，形成若干音素对，每个音素对包括一个第一音素和一个对应的第二音素。

对于每个音素对，可以将其中的第一音素与其中的第二音素相比较，判断二者是否一致。例如，将第一音素序列中的第一个第一音素与第二音素序列中的第一个第二音素相比较，如果二者一致，可以记录这两个音素的信息或不做处理，如果这二者不一致，则可以确定该音素对存在标注错误，并可以输出下述第一错误反馈信息。

在步骤S160，对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

可选地，第一错误反馈信息可以包括不一致的音素对。即，可以将不一致的第一音素和第二音素输出，以便于标注人员查看。可选地，第一错误反馈信息还可以包括不一致的音素对的起始时间和结束时间。不一致的音素对的起始时间和结束时间可以用该音素对中的第一音素和/或第二音素的起始时间和结束时间表示。可选地，第一错误反馈信息还可以包括报警信息，用于提示标注人员进行查看和修改。示例性地，第一错误反馈信息可以包括文字信息、语音信息、图像信息等中的一种或多种，并且可以通过显示屏和/或扬声器等输出装置输出。

根据本发明实施例的歌曲标注检测方法，可以自动检测标注好的MusicXML文件和Interval文件的歌曲标注结果是否一致，并在标注不一致时及时输出错误反馈信息，这样可以方便标注人员及时修改标注结果，从而有助于有效提高歌曲标注的效率和准确度。

根据本发明实施例，在对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息(步骤S160)之后，歌曲标注检测方法100还可以包括：接收标注人员输入的修改信息；基于所述修改信息修改MusicXML文件和/或Interval文件并返回步骤S110。

标注人员可以通过输入装置输入修改信息，以对MusicXML文件和/或Interval文件进行修改。输入装置可以包括但不限于触摸屏、键盘、鼠标、麦克风等中的一种或多种，修改信息可以包括但不限于文字信息、语音信息等。在标注人员修改MusicXML文件和/或Interval文件之后，可以返回步骤S110，即针对新的MusicXML文件和Interval文件重新执行步骤S110-S160。上述检测和修改步骤可以不断循环，直至MusicXML文件和Interval文件不再检测到标注错误为止。

根据本发明实施例，第二歌词特征还可以包括第二音素序列中的每个第二音素的起始时间和结束时间，第一错误反馈信息包括对应音素对的起始时间和结束时间，其中，每个音素对的起始时间和结束时间用该音素对中的第二音素的起始时间和结束时间表示。

如上所述，第一错误反馈信息可以包括音素对的起始时间和结束时间。音素对的起始时间和结束时间可以用第一音素和/或第二音素的起始时间和结束时间表示。在Interval文件中，可以记录每个音素的起始时间和结束时间，因此，音素对的起始时间和结束时间可以用第二音素的起始时间和结束时间表示。第一错误反馈信息包括音素对的起始时间和结束时间，可以方便标注人员查看和定位标注错误的位置，也就便于修改。

根据本发明实施例，在从MusicXML文件中提取第一歌词特征(步骤S120)之后，歌曲标注检测方法100还可以包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；其中，第一错误反馈信息包括与对应音素对中的第一音素相对应的上下文音素集合。

可以理解，上文音素是与对应的第一音素(或第二音素)紧邻的、位于对应的第一音素(或第二音素)前方的第一音素(或第二音素)，下文音素是与对应的第一音素(或第二音素)紧邻的、位于对应的第一音素(或第二音素)后方的第一音素(或第二音素)。

基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合的步骤可以单独存在，其可以在任何情况下执行。当某一音素对不一致时，可以将该音素对中的第一音素和/或第二音素的上下文音素集合包括在第一错误反馈信息中输出，以方便标注人员查看和定位标注错误的位置。预设数目可以是任何合适的数目，此处所述的位于对应的第一音素前后的预设数目的第一音素可以包括位于对应的第一音素前方的第一数目的上文音素和位于对应的第一音素后方的第二数目的下文音素。第一数目和第二数目可以是任何合适的值，其可以根据需要设定。可选地，第一数目和第二数目可以相等。如上所述，可选地，上下文音素集合还可以包括对应的第一音素。

根据本发明实施例，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)之前，歌曲标注检测方法100还可以包括：对于待标注歌曲的第i句歌词，将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中，其中，0＜i≤N，其中，N为待标注歌曲的歌词总句数；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)可以包括：对于第i个合并文件，将该合并文件中的第一音素和第二音素一一对应地进行比较。

可选地，可以将每句歌词所对应的第一音素和第二音素单独提取和合并到一个合并文件中。可选地，该合并文件可以是文本文件(TXT文件)、word文件、excel文件等格式的文件。例如，在合并文件中，可以以类似列表的形式存储音素。例如，在列表中，第1列可以是从Interval文件中提取的音素，第2、3列可以分别是Interval文件中各音素的起始时间和结束时间，第4列可以是从MusicXML文件中提取的音素及对应的上下文音素集合。在每列中，Interval文件中的音素和MusicXML文件中的音素是对应的，例如，都是针对“猜”标注的声母“c”。

可以将每句歌词所对应的MusicXML文件中的音素和Interval文件中的音素单独划分到一个文件中，方便后续进行比较，也方便后续用于其他处理(例如歌曲合成等)。

根据本发明实施例，所述第一错误反馈信息可以包括对应音素对所属的合并文件的文件名。

输出文件名可以帮助标注人员更快地定位标注错误的音素所在的位置。

根据本发明实施例，在从MusicXML文件中提取第一歌词特征(步骤S120)之后，歌曲标注检测方法100还可以包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中包括：如果检测到该第i句歌词所对应的第一音素中存在至少一个连续的第一特殊标注音素，则从至少一个连续的第一特殊标注音素中的第一个第一特殊标注音素所对应的上下文音素集合中查找位于第一个第一特殊标注音素前方的上文音素；在上文音素是英文音素的情况下，当将该第i句歌词所对应的第一音素全部提取到第i个合并文件中之后，跳过对第一音素的提取操作直至该i句歌词所对应的第二音素全部提取到第i个合并文件中为止；在上文音素是中文音素的情况下，将该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中。

在主要针对中文歌曲进行标注的场景下，默认对其中的英文歌词进行省略式标注，此时可以不再针对英文歌词进行标注结果的比较。例如，在歌曲标注时，可以在MusicXML文件中将英文歌词用某种特殊标注符号(可以称为第一特殊标注符号)进行标注，例如仅标注某个英文单词的首字母，其余字母用“XXXX”这样的特殊标注符号进行标注。可以将用诸如“XXXX”这样的特殊标注符号表示的音素称为特殊标注音素(可以称为第一特殊标注音素)。这种情况下，第一特殊标注音素的数目与英文音素的实际数目可以不一致。

Interval文件中的英文歌词则可以采用正常的英文音素标注。这样，会导致同一句歌词，如果包含英文的话，MusicXML文件和Interval文件的这句歌词的音素数目可能会不一致。这样，如果将同一句歌词的MusicXML文件中的音素和Interval文件中的音素提取到同一合并文件中时，无法保证一一对应。例如，将MusicXML文件中的音素逐一提取到合并文件中，并同步地将Interval文件中的音素逐一提取到合并文件中的过程中，可能出现从MusicXML文件中提取的包含第一特殊标注音素的第一音素已经全部提取完，而Interval文件中的第二音素尚未提取完的情况。在一般情况下，如果出现这种提取不对应的情况，检测程序可以停止执行并报错，即输出第二错误反馈信息，用于例如指示第j句歌词存在漏标情况。而在存在英文歌词的情况下，出现上述提取不对应的情况，则可以使检测程序继续执行，直至将Interval文件中的第二音素全部提取到合并文件中为止。为此，可以在遇到上述第一特殊标注音素时判断其前方是否是英文音素，如果是，则可以确定存在英文歌词，此时可以选择在将该第i句歌词所对应的第一音素全部提取到第i个合并文件中之后，跳过对第一音素的提取操作直至该i句歌词所对应的第二音素全部提取到第i个合并文件中为止。例如，MusicXML文件中某句包含英文的歌词包含8个音素，Interval文件中该句歌词包含10个音素，这样，MusicXML文件在这句歌词的最后会有两个音素的空缺。提前确定存在英文的情况下，可以为空缺音素保留列表中的位置，以使得在第8个音素之后，针对MusicXML文件不再提取音素，而针对Interval文件继续提取音素填充文件中的列表，直至该句歌词结束为止。对于不存在英文歌词的情况，可以直接一一对应地提取第一音素和第二音素直至双方均全部提取完为止。

通过上述方式，可以在出现英文歌词导致音素数目不一致的情况下正常将音素提取到合并文件中，便于后续对该句歌词进行其他分析和处理。

根据本发明实施例，在将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中的过程中，歌曲标注检测方法100还可以包括：如果该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素中的一者已全部提取到第i个合并文件中，并且另一者仅部分提取到第i个合并文件中，则输出第二错误反馈信息，第二错误反馈信息用于指示该第j句歌词存在漏标情况。

在将音素提取到合并文件的过程中，如果存在针对同一句歌词，MusicXML文件中的音素和Interval文件中的音素不一一对应的情况，则可以停止继续检测并报错。这样方便及时提醒标注人员漏标情况的出现，以便于标注人员及时检查和修正。

示例性地，在将第一音素序列中的该第i句歌词所对应的第一音素和第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中的过程中，歌曲标注检测方法100还可以包括：如果该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素中的一者已全部提取到第i个合并文件中，并且另一者仅部分提取到第i个合并文件中，并且未检测到该第i句歌词所对应的第一音素中存在第一特殊标注音素，则输出第二错误反馈信息，第二错误反馈信息用于指示该第j句歌词存在漏标情况。

在待标注歌曲可能存在英文歌词的情况下，可以选择排除出现英文歌词(即存在第一特殊标注音素)的情况，排除这种情况以后，如果还是出现了对于同一句歌词音素数目不一致的情况，则可以输出第二错误反馈信息来指示漏标。排除英文歌词的操作是可选的，如果待标注歌曲是纯粹的中文歌曲，则可以不考虑第一特殊标注音素，而是在出现同一句歌词音素数目不一致的情况时就输出第二错误反馈信息。需注意，本文所述的英文可以替换为其他任意合适的语言，例如日文、韩文、俄文等等，这些替换实施例均落入本发明的保护范围。示例性地，第二错误反馈信息可以包括文字信息、语音信息、图像信息等中的一种或多种，并且可以通过显示屏和/或扬声器等输出装置输出。

根据本发明实施例，在从MusicXML文件中提取第一歌词特征(步骤S120)之后，歌曲标注检测方法100还可以包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)可以包括：如果第一音素序列中存在至少一个连续的第二特殊标注音素，则从至少一个连续的第二特殊标注音素中的第一个第二特殊标注音素所对应的上下文音素集合中查找位于第一个第二特殊标注音素前方的上文音素；在上文音素是中文音素的情况下，确定至少一个连续的第二特殊标注音素与对应的至少一个第二音素一致，其中，对应的至少一个第二音素是第二音素序列中的与至少一个连续的第二特殊标注音素一一对应的至少一个第二音素。

除英文之外，一字多音也可以用特殊标注符号(可以称为第二特殊标注符号)表示。用于表示一字多音的第二特殊标注符号可以与用于表示英文的第一特殊标注符号相同或不同，即第一特殊标注音素可以与第二特殊标注音素相同或不同。例如，某个歌词可能存在拖音现象，使得韵母重复多遍，这种属于一字多音的情况。例如，歌词是“猜”这个字，其发音为“cai”，在实际发音时进行拖长，形成“cai～ai～ai～ai～ai”这样的发音，在进行MusciXML文件的标注时，可以将其标注成“caiXXXX”，每个“X”代表一个韵母“ai”。因此，遇到一个或多个连续的特殊标注音素时，可以去查找第一个特殊标注音素前方的那个音素是英文还是韵母，是英文的证明该歌词是英文，是韵母的证明该歌词是中文。对于是中文的情况，可以直接默认所有特殊标注音素与各自所对应的第二音素一致，而不管对应的第二音素实际内容如何。例如，一旦遇到“caiXXXX”这样的音素，可以针对前两个音素“c”和“ai”进行第一音素与第二音素的比较，而针对后面的四个特殊标注音素“XXXX”，则直接默认这四个音素与第二音素序列中位于“c”和“ai”后面的四个第二音素是对应一致的。

这种遇到第二特殊标注音素直接默认一致的方式计算量小，可以比较快速地处理一字多音的情况，从而可以提高标注检测的效率。

根据本发明实施例，在从MusicXML文件中提取第一歌词特征(步骤S120)之后，歌曲标注检测方法100还可以包括：基于拼音字典和第一歌词特征提取与第一音素序列中的每个第一音素相对应的上下文音素集合，上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)可以包括：如果第一音素序列中存在至少一个连续的第二特殊标注音素，则从至少一个连续的第二特殊标注音素中的第一个第二特殊标注音素所对应的上下文音素集合中查找位于第一个第二特殊标注音素前方的上文音素；在上文音素是中文音素的情况下，将至少一个连续的第二特殊标注音素一一对应地替换为至少一个替换音素，其中，至少一个替换音素中的每一个均与上文音素相同；将至少一个替换音素与对应的至少一个第二音素一一对应地进行比较，以判断每个替换音素与对应的第二音素是否一致，其中，对应的至少一个第二音素是第二音素序列中的与至少一个连续的第二特殊标注音素一一对应的至少一个第二音素。

例如，沿用上述“caiXXXX”的示例，可以将每个特殊标注音素，例如“X”，替换成第一个第二特殊标注音素前方的韵母，例如“caiXXXX”替换成“caiaiaiaiai”，并继而与Interval文件中的对应音素进行比较。

这种遇到第二特殊标注音素将其替换成上文的中文音素并进而进行音素比较的方式可以进一步提高标注检测的准确度。

根据本发明实施例，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)之前，歌曲标注检测方法100还可以包括：对于待标注歌曲的第j句歌词，如果在音乐扩展标记语言文件中检测到位于该第j句歌词之后的至少一个连续的第一休止符，并在音程文件中检测到位于该第j句歌词之后的第二休止符，则将至少一个连续的第一休止符确定为第一停顿位置，将第二休止符确定为与第一停顿位置相对应的第二停顿位置，将位于该第j句歌词与第一停顿位置之间的第一音素与位于该第j句歌词与第二停顿位置之间的第二音素对应起来，其中，0＜j≤N，其中，N为待标注歌曲的歌词总句数。

休止符设置在歌曲的句首和句尾。通常在Interval文件中，一句歌词的末尾和下一句歌词的开头之间具有一个休止符，而在MusciXML文件中，一句歌词的末尾和下一句歌词的开头之间可能有一个或多个休止符。休止符可以代表停顿，如果两句歌词之间的停顿时间较长，则MusciXML文件中该停顿位置处的休止符可能会比较多。这样，可以在进行音素比较之前，基于各自的休止符对MusciXML文件和Interval文件进行断句，以将MusciXML文件中的各句歌词拆分开。

在断句时，遇到Interval文件具有一个休止符，而MusicXML文件在同样位置处具有一个或多个连续的休止符的，将MusciXML的一个或多个休止符视为一个停顿位置进行断句。在同一位置处，Interval具有一个休止符而MusicXML具有多个休止符不算标注错误。

所述将位于该第j句歌词与第一停顿位置之间的第一音素与位于该第j句歌词与第二停顿位置之间的第二音素对应起来，是指确定位于该第j句歌词与第一停顿位置之间的第一音素为该第j句歌词所对应的第一音素，确定位于该第j句歌词与第二停顿位置之间的第二音素为该第j句歌词所对应的第二音素，即，位于该第j句歌词与第一停顿位置之间的第一音素与位于该第j句歌词与第二停顿位置之间的第二音素是与同一句歌词(第j句歌词)对应的音素。

根据本发明实施例，在将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较(步骤S150)之前，歌曲标注检测方法100还可以包括：对于待标注歌曲的第k句歌词，将第一音素序列中的该第k句歌词所对应的第一音素的数目与第二音素序列中的该第k句歌词所对应的第二音素的数目进行比较，如果数目不一致，则跳过与该第k句歌词相关的音素比较操作和/或输出第三错误反馈信息，第三错误反馈信息用于指示该第k句歌词存在英文或该第k句歌词存在漏标情况，其中，0＜k≤N，其中，N为待标注歌曲的歌词总句数。

如上所述，如果包含英文的话，MusicXML文件和Interval文件的同一句歌词的音素数目可能会不一致。因此，遇到音素数目不一致的情况，可以认为是歌词中存在英文。而对于存在英文的歌词，可以选择忽略这句歌词(即使其音素已经提取到合并文件中)，不再进行音素比较，即不再检测其中音素的一致性。

此外，同一句歌词的音素数目不一致还有可能是存在漏标。上述在提取音素至合并文件中的过程中一旦发现漏标即报错的实施例仅是示例而非对本发明的限制。可选地，在提取音素至合并文件的过程中可以不报错，一直提取MusicXML文件和Interval文件中的音素直至双方均全部提取完为止，后续在音素比较之前再检测是否漏标。可选地，在遇到音素数目不一致的情况时，还可以输出第三错误反馈信息，用于指示该第j句歌词存在英文或存在漏标情况，这样可以及时提醒标注人员。

根据本发明实施例，在从MusicXML文件中提取第一歌词特征(步骤S120)之前，歌曲标注检测方法100还可以包括：检测MusicXML文件的格式是否存在异常；如果存在异常，则输出第一异常信息，第一异常信息用于指示MusicXML文件的格式存在异常；其中，从MusicXML文件中提取第一歌词特征在MusicXML文件的格式不存在异常的情况下执行。

根据本发明实施例，在从Interval文件中提取第二歌词特征(步骤S140)之前，歌曲标注检测方法100还可以包括：检测Interval文件的格式是否存在异常；如果存在异常，则输出第二异常信息，第二异常信息用于指示Interval文件的格式存在异常；其中，从Interval文件中提取第二歌词特征在Interval文件的格式不存在异常的情况下执行。

获取MusicXML文件和Interval文件之后，可以针对任一者或两者检测其格式是否存在异常，如果存在异常，则输出异常信息以便及时提醒标注人员检查。格式异常是指MusicXML文件或Interval文件中的内容没有按照规定格式编辑。

图3示出根据本发明一个实施例的歌曲标注检测流程的示意图。参见图3，可以理解歌曲标注检测方法的完整示例性流程。如图3所示，可以首先获取MusicXML文件和Interval文件。然后，针对MusicXML文件和Interval文件分别检测各自的格式是否异常。如果异常，则向标注人员进行反馈。如果没有异常，则可以针对MusicXML文件提取第一歌词特征，进而提取第一音素序列，还可以针对Interval文件提取第二音素序列。随后，可以将第一音素序列的音素和第二音素序列的音素提取到合并文件中。随后，检测合并文件中的第一音素和第二音素是否一致。如果存在不一致的音素，则可以向标注人员进行反馈，如果音素全部一致，则可以结束检测。标注人员在接收到反馈之后，可以修改MusicXML文件和Interval文件。针对修改后的MusicXML文件和Interval文件，可以再次执行上述步骤。

现有的歌曲标注采用人工检测方式，本发明实施例可以自动检测歌曲标注过程中的错误，可以有效提高歌曲标注的效率及准确度。实践证明，常规音乐库中的歌曲经过若干次循环性的修改检测操作，就能够达到很高的准确度。

根据本发明另一方面，提供一种歌曲标注检测装置。图4示出了根据本发明一个实施例的歌曲标注检测装置400的示意性框图。如图4所示，根据本发明实施例的歌曲标注检测装置400包括获取模块410、第一提取模块420、第二提取模块430、第三提取模块440、比较模块450和输出模块460。所述各个模块可分别执行上文中结合图1描述的歌曲标注检测方法100的各个步骤/功能。以下仅对该歌曲标注检测装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块410用于获取拼音字典、针对同一待标注歌曲所标注的音乐扩展标记语言文件和音程文件，其中，音乐扩展标记语言文件记录有待标注歌曲的歌词的拼音，音程文件记录有待标注歌曲的音素。

第一提取模块420用于从音乐扩展标记语言文件中提取第一歌词特征，第一歌词特征包括音乐扩展标记语言文件中记录的每个歌词的拼音。

第二提取模块430用于基于拼音字典和第一歌词特征提取第一音素序列，第一音素序列包括音乐扩展标记语言文件中记录的每个歌词的每个音素。

第三提取模块440用于从音程文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括音程文件中记录的每个音素。

比较模块450用于将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较。

输出模块460用于对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

根据本发明另一方面，提供一种歌曲标注检测系统。图5示出了根据本发明一个实施例的歌曲标注检测系统500的示意性框图。歌曲标注检测系统500包括处理器510和存储器520。

所述存储器520存储用于实现根据本发明实施例的歌曲标注检测方法100中的相应步骤的计算机程序指令。

所述处理器510用于运行所述存储器520中存储的计算机程序指令，以执行根据本发明实施例的歌曲标注检测方法100的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器510运行时用于执行以下步骤：获取拼音字典、针对同一待标注歌曲所标注的音乐扩展标记语言文件和音程文件，其中，音乐扩展标记语言文件记录有待标注歌曲的歌词的拼音，音程文件记录有待标注歌曲的音素；从音乐扩展标记语言文件中提取第一歌词特征，第一歌词特征包括音乐扩展标记语言文件中记录的每个歌词的拼音；基于拼音字典和第一歌词特征提取第一音素序列，第一音素序列包括音乐扩展标记语言文件中记录的每个歌词的每个音素；从音程文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括音程文件中记录的每个音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较；对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

根据本发明另一方面，提供一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的歌曲标注检测方法100的相应步骤，并且用于实现根据本发明实施例的歌曲标注检测装置400中的相应模块。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取拼音字典、针对同一待标注歌曲所标注的音乐扩展标记语言文件和音程文件，其中，音乐扩展标记语言文件记录有待标注歌曲的歌词的拼音，音程文件记录有待标注歌曲的音素；从音乐扩展标记语言文件中提取第一歌词特征，第一歌词特征包括音乐扩展标记语言文件中记录的每个歌词的拼音；基于拼音字典和第一歌词特征提取第一音素序列，第一音素序列包括音乐扩展标记语言文件中记录的每个歌词的每个音素；从音程文件中提取第二歌词特征，第二歌词特征包括第二音素序列，第二音素序列包括音程文件中记录的每个音素；将第一音素序列中的第一音素与第二音素序列中的第二音素一一对应地进行比较；对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的歌曲标注检测系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种歌曲标注检测方法，包括：

获取拼音字典、针对同一待标注歌曲所标注的音乐扩展标记语言文件和音程文件，其中，所述音乐扩展标记语言文件记录有所述待标注歌曲的歌词的拼音，所述音程文件记录有所述待标注歌曲的音素；

从所述音乐扩展标记语言文件中提取第一歌词特征，所述第一歌词特征包括所述音乐扩展标记语言文件中记录的每个歌词的拼音；

基于所述拼音字典和所述第一歌词特征提取第一音素序列，所述第一音素序列包括所述音乐扩展标记语言文件中记录的每个歌词的每个音素；

从所述音程文件中提取第二歌词特征，所述第二歌词特征包括第二音素序列，所述第二音素序列包括所述音程文件中记录的每个音素；

将所述第一音素序列中的第一音素与所述第二音素序列中的第二音素一一对应地进行比较；

对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，所述第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

2.根据权利要求1所述的歌曲标注检测方法，其中，所述第二歌词特征还包括所述第二音素序列中的每个第二音素的起始时间和结束时间，所述第一错误反馈信息包括对应音素对的起始时间和结束时间，其中，每个音素对的起始时间和结束时间用该音素对中的第二音素的起始时间和结束时间表示。

3.根据权利要求1所述的歌曲标注检测方法，其中，在所述从所述音乐扩展标记语言文件中提取第一歌词特征之后，所述歌曲标注检测方法还包括：

基于所述拼音字典和所述第一歌词特征提取与所述第一音素序列中的每个第一音素相对应的上下文音素集合，所述上下文音素集合包括位于对应的第一音素前后的预设数目的第一音素；

其中，所述第一错误反馈信息包括与对应音素对中的第一音素相对应的上下文音素集合。

4.根据权利要求1所述的歌曲标注检测方法，其中，

在所述将所述第一音素序列中的第一音素与所述第二音素序列中的第二音素一一对应地进行比较之前，所述歌曲标注检测方法还包括：

对于所述待标注歌曲的第i句歌词，将所述第一音素序列中的该第i句歌词所对应的第一音素和所述第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中，其中，0＜i≤N，其中，N为所述待标注歌曲的歌词总句数；

所述将所述第一音素序列中的第一音素与所述第二音素序列中的第二音素一一对应地进行比较包括：

对于第i个合并文件，将该合并文件中的第一音素和第二音素一一对应地进行比较。

5.根据权利要求4所述的歌曲标注检测方法，其中，所述第一错误反馈信息包括对应音素对所属的合并文件的文件名。

6.根据权利要求4所述的歌曲标注检测方法，其中，

在所述从所述音乐扩展标记语言文件中提取第一歌词特征之后，所述歌曲标注检测方法还包括：

所述将所述第一音素序列中的该第i句歌词所对应的第一音素和所述第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中包括：

如果检测到该第i句歌词所对应的第一音素中存在至少一个连续的第一特殊标注音素，则从所述至少一个连续的第一特殊标注音素中的第一个第一特殊标注音素所对应的上下文音素集合中查找位于所述第一个第一特殊标注音素前方的上文音素；

在所述上文音素是英文音素的情况下，当将该第i句歌词所对应的第一音素全部提取到第i个合并文件中之后，跳过对第一音素的提取操作直至该i句歌词所对应的第二音素全部提取到第i个合并文件中为止；

在所述上文音素是中文音素的情况下，将该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中。

7.根据权利要求4所述的歌曲标注检测方法，其中，在所述将所述第一音素序列中的该第i句歌词所对应的第一音素和所述第二音素序列中的该第i句歌词所对应的第二音素一一对应地提取到第i个合并文件中的过程中，所述歌曲标注检测方法还包括：

如果该第i句歌词所对应的第一音素和该第i句歌词所对应的第二音素中的一者已全部提取到第i个合并文件中，并且另一者仅部分提取到第i个合并文件中，则输出第二错误反馈信息，所述第二错误反馈信息用于指示该第j句歌词存在漏标情况。

8.一种歌曲标注检测装置，包括：

获取模块，用于获取拼音字典、针对同一待标注歌曲所标注的音乐扩展标记语言文件和音程文件，其中，所述音乐扩展标记语言文件记录有所述待标注歌曲的歌词的拼音，所述音程文件记录有所述待标注歌曲的音素；

第一提取模块，用于从所述音乐扩展标记语言文件中提取第一歌词特征，所述第一歌词特征包括所述音乐扩展标记语言文件中记录的每个歌词的拼音；

第二提取模块，用于基于所述拼音字典和所述第一歌词特征提取第一音素序列，所述第一音素序列包括所述音乐扩展标记语言文件中记录的每个歌词的每个音素；

第三提取模块，用于从所述音程文件中提取第二歌词特征，所述第二歌词特征包括第二音素序列，所述第二音素序列包括所述音程文件中记录的每个音素；

比较模块，用于将所述第一音素序列中的第一音素与所述第二音素序列中的第二音素一一对应地进行比较；

输出模块，用于对于任一音素对，在该音素对中的音素不一致的情况下，输出与该音素对相对应的第一错误反馈信息，所述第一错误反馈信息用于指示对应音素对的标注不一致，其中，每个音素对包括一组相互对应的第一音素和第二音素。

9.一种歌曲标注检测系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的歌曲标注检测方法。

10.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至7任一项所述的歌曲标注检测方法。