CN110853627A

CN110853627A - 用于语音标注的方法及系统

Info

Publication number: CN110853627A
Application number: CN201911081518.1A
Authority: CN
Inventors: 廖春平; 张柳健
Original assignee: So Ltd By Share Ltd
Current assignee: So Ltd By Share Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-28
Anticipated expiration: 2039-11-07
Also published as: CN110853627B

Abstract

本发明涉及用于语音标注的方法及系统。用于语音标注的方法包括：获取待标注的语音数据；生成与语音数据对应的第一识别结果；接收基于语音数据和第一识别结果的第一校对结果；基于第一校对结果生成第二识别结果；以及基于第二识别结果和第一校对结果，确定语音数据的质量等级和/或缺陷类型。用于语音标注的系统包括：语音数据获取模块，配置成获取待标注的语音数据；第一识别结果生成模块，配置成生成与语音数据对应的第一识别结果；接收模块，配置成接收基于语音数据和第一识别结果的第一校对结果；第二识别结果生成模块，配置成基于第一校对结果生成第二识别结果；以及分析模块，配置成确定语音数据的质量等级和/或缺陷类型。

Description

用于语音标注的方法及系统

技术领域

本发明涉及语音数据处理领域，尤其涉及用于语音标注的方法及系统。

背景技术

目前，不管是语音识别还是语音合成，其背后都依赖于大量的高质量的语音标注数据。高质量的语音标注（包括但不限于对初步识别获得的对应于语音文件的文字内容的标注、文字段的起始和终止的标注以及语音识别质量的标注）可以在很大程度上有助于获得正确的语音识别结果。尤其是对于语音识别而言，必须事先获得大量应用场景下的原始语音数据，然后经过严格的语音标注确保原始语音数据的标注准确率达到95%以上，才能投入声学模型训练，从而获得较高的语音识别准确率。

然而，原始语音数据，是应用场景下用户的真实语音数据，由一系列语音文件组成，没有任何文本信息，需要靠人工方式进行语音标注。这种用于语音标注的方法依赖于密集的人力劳动，效率低且人力成本高，并且难以保障标注结果的准确性。

发明内容

因此，需要一种用于语音标注的方法及系统，从而改进或缓解以上问题中的一个或多个。

为实现以上目的的一个或多个，本发明提供以下技术方案。

按照本发明的第一方面，提供一种用于语音标注的方法，其包括以下步骤：获取待标注的语音数据；生成与语音数据对应的第一识别结果；接收基于语音数据和第一识别结果的第一校对结果；基于第一校对结果生成第二识别结果；以及基于第二识别结果和第一校对结果，确定语音数据的质量等级和/或确定语音数据的缺陷类型。

根据本发明一实施例的用于语音标注的方法，其还包括步骤：输出语音数据的质量等级和/或缺陷类型的信息。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其还包括步骤：接收基于第一校对结果以及质量等级和/或缺陷类型的第二校对结果。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其中，在确定语音数据的质量等级和/或确定语音数据的缺陷类型的步骤中：基于通过比较第二识别结果和第一校对结果而获得的关于缺漏错误、增添错误和替换错误的信息，确定语音数据的质量等级和/或确定语音数据的缺陷类型。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其中，在确定语音数据的质量等级的步骤中：基于词错率来确定语音数据的质量等级，词错率定义为缺漏错误、增添错误和替换错误对应的词的数量之和与第一校对结果的词的数量的比率。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其中，在确定语音数据的缺陷类型的步骤中：基于缺漏错误、增添错误和替换错误对应的词的数量与相应的阈值之间的比较来确定语音数据的缺陷类型。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其中，语音数据的质量等级包括下列中的一个或多个：有效、部分有效和无效。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其中，语音数据的缺陷类型包括下列中的一个或多个：语速过快、断句不明、背景嘈杂、语音重叠和存在方言。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其还包括步骤：当确定质量等级为部分有效时，对语音数据进行切分，以获得至少一个质量等级为有效的语音段。

按照本发明的第二方面，提供一种用于语音标注的方法，其包括以下步骤：获取待标注的语音数据；生成与语音数据对应的第一识别结果；以及接收部分语音数据的质量等级和/或缺陷类型。

根据本发明另一实施例的用于语音标注的方法，其还包括步骤：输出与部分语音数据的质量等级和/或缺陷类型相关联的语音数据的质量等级和/或缺陷类型。

根据本发明另一实施例或以上任一实施例的用于语音标注的方法，其还包括步骤：接收基于语音数据以及质量等级和/或缺陷类型的第一校对结果。

按照本发明的第三方面，提供一种用于语音标注的系统，其包括：语音数据获取模块，其配置成获取待标注的语音数据；第一识别结果生成模块，其配置成生成与语音数据对应的第一识别结果；接收模块，其配置成接收基于语音数据和第一识别结果的第一校对结果；第二识别结果生成模块，其配置成基于第一校对结果生成第二识别结果；以及分析模块，其配置成基于第二识别结果和第一校对结果，确定语音数据的质量等级和/或确定语音数据的缺陷类型。

根据本发明一实施例的用于语音标注的系统，其中，用于语音标注的系统还包括：输出模块，其配置成输出语音数据的质量等级和/或缺陷类型的信息。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，接收模块还配置成：接收基于第一校对结果以及质量等级和/或缺陷类型的第二校对结果。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，分析模块还配置成：基于通过比较第二识别结果和第一校对结果而获得的关于缺漏错误、增添错误和替换错误的信息，确定语音数据的质量等级和/或确定语音数据的缺陷类型。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，分析模块还配置成：基于词错率来确定语音数据的质量等级，词错率定义为缺漏错误、增添错误和替换错误对应的词的数量之和与第一校对结果的词的数量的比率。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，分析模块还配置成：基于缺漏错误、增添错误和替换错误对应的词的数量与相应的阈值之间的比较来确定语音数据的缺陷类型。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，语音数据的质量等级包括下列中的一个或多个：有效、部分有效和无效。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其中，语音数据的缺陷类型包括下列中的一个或多个：语速过快、断句不明、背景嘈杂、语音重叠和存在方言。

根据本发明另一实施例或以上任一实施例的用于语音标注的系统，其还包括：语音数据处理模块，其配置成当确定质量等级为部分有效时，对语音数据进行切分，以获得至少一个质量等级为有效的语音段。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。附图包括：

图1为根据本发明一实施例的用于语音标注的方法的流程图；以及

图2为根据本发明一实施例的用于语音标注的系统的示意性框图。

具体实施方式

在本说明书中，参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的各实施例旨在使本文的披露全面完整，以将本发明的保护范围更为全面地传达给本领域技术人员。

诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

下文参考根据本发明实施例的方法和系统的流程图说明、框图和/或流程图来描述本发明。将理解这些流程图说明和/或框图的每个框、以及流程图说明和/或框图的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以构成机器，以便由计算机或其它可编程数据处理设备的处理器执行的这些指令创建用于实施这些流程图和/或框和/或一个或多个流程框图中指定的功能/操作的部件。

可以将这些计算机程序指令加载到计算机或其它可编程数据处理器上以使一系列的操作步骤在计算机或其它可编程处理器上执行，以便构成计算机实现的进程，以使计算机或其它可编程数据处理器上执行的这些指令提供用于实施此流程图和/或框图的一个或多个框中指定的功能或操作的步骤。还应该注意在一些备选实现中，框中所示的功能/操作可以不按流程图所示的次序来发生。例如，依次示出的两个框实际可以基本同时地执行或这些框有时可以按逆序执行，具体取决于所涉及的功能/操作。

在语音数据处理领域中，对于有语音识别能力的企业，可以利用已有的语音识别系统先对语音数据进行初步识别，以获得初步标注文本；然后使标注人员在初步标注文本的基础上人工校对一遍，从而确认语音数据中每个语音段对应的基本正确的标注文本（因为人工校对仍然可能出错），即确认语音段的基本正确的内容与初始标注文本是否一致，如果不一致则需要根据基本正确的语音内容来纠正初始标注文本，以使得每个语音段都有基本正确的标注文本。

在一定程度上，这种人工校对方式也可以提高标注效率和节省不少成本。然而，在校对过程中，由于大多数标注人员缺乏语音识别的技术背景，无法理解有效语音段的标注质量对声学模型性能所带来的影响，对有效语音段的理解会存在主观上的差异，以及长时间枯燥的标注任务也会影响标注质量。如对于多人说话的重叠语音段、方言和可疑听不懂的语音等，不同标注人员在理解上会存在明显差异，导致语音数据的标注质量参差不齐，后续还需要经过费时又费力的数据清洗阶段，才能获得较高质量的语音标注数据。

为了解决或至少缓解上述一个或多个问题，本发明提出一种用于语音标注的方法和系统。

现在参考图1，图1为根据本发明一实施例的用于语音标注的方法100的流程图。该方法100将词错率计算原理应用于语音识别系统，使得能够较准确地识别出由语音识别系统获得的识别结果相对于通过人工校对获得的第一校对结果所具有的缺漏错误、增添错误和替换错误。由此，可以判断出语音存在的缺陷以及评定语音的质量等级，从而提醒标注人员在下一次标注时有侧重地注意语音质量问题，通过与标注人员的互动，提升了最终获得的标注文本的准确性并且增加了标注工作的趣味性。

在步骤S110中，获取待标注的语音数据。该语音数据可以是各种应用场景中所积累的语音数据或者通过录制获得的语音数据等。事实上，任何需要进行标注的语音文件及数据（包括任何语言的文字和数字中的一种或多种）均可以称为本发明的实施对象，语音数据和语音段可类似地对待。在本文中，标注是指将语音数据转化为对应的文字数据，无论是通过机器或者人工或者其它任何可行的方式。在获取步骤中，可以使用常见的音频输入设备，诸如麦克风或者是带有音频接收装置的任何设备（例如，带有音频接收装置的耳机、录音机、计算机等）。可以对语音数据的语音文件进行格式统一化，例如，可以将其统一成采样率FS，单通道PCM编码格式的wav文件。在实施例中，FS可以是8000Hz或16000Hz，并且与语音识别中涉及的采样率一致。

在步骤S120中，生成与获取的语音数据对应的第一识别结果。在一个实施例中，第一识别结果可以是利用现有的语音识别系统对语音数据进行初步识别来得到的数据。容易理解的是，通过语音识别系统得到的识别结果由于语音数据质量的多样性而存在或多或少的问题，需要进行进一步的处理来得到准确度较高的识别结果。第一识别结果可以是对应于语音数据的整段文字数据，也可以是分别对应于语音数据中的每一段（即，多个语音段）的多段文字数据，或者可以是多个对应的语音数据和文字数据对。

在步骤S130中，接收基于语音数据和第一识别结果的第一校对结果。该第一校对结果可以是通过人工基于语音数据得到的。第一校对结果可以包括对语音数据的断句。由于上述语音段的长度可以小于或等于预设的时间长度阈值（例如15秒），在此情况下，可以由人工根据语音的语义以及停顿来对语音进行划分断句，从而得到一定长度的语音段。划分断句的操作可以精确到秒、毫秒甚至更小，划分获得的语音段可以包括一个或多个完整的句子。优选地，第一校对结果包括基于语音数据，并且在第一识别结果的基础上修改得到的语音数据的内容。容易理解的是，经过人工修改的第一校对结果通常比通过机器初步识别获得的第一识别结果更准确。在此步骤中，还可以通过人工预先将完全无法识别（无论是通过人工还是机器）的语音部分删除或是将其设定为不用于后续的识别。

接下来，在步骤S140中，基于步骤S130中的得到的第一校对结果来生成对应的第二识别结果。具体地，当通过人工在S130中将语音数据进行了断句之后，第二识别结果将比第一识别结果更准确，这是由于因为机器识别导致的断句错误而产生的语音内容识别错误被减少了。

在步骤S150中，基于第二识别结果和第一校对结果，可以确定语音数据的质量等级和/或确定语音数据的缺陷类型。在此步骤中，以第一校对结果作为基本上正确的版本，来确定第二识别结果存在的问题。质量等级和缺陷类型都是基于通过上述比较获得的关于第二识别结果中存在的问题而分析得到的。问题可以是例如缺漏错误、增添错误和替换错误。

在一个具体实施例中，当第二识别结果为：

“对好请问您叫我们的服务很满意吗”

并且第一校对结果为：

“好的请问您对我们的服务还满意吗”

时，缺漏错误是指没有识别出原本语音数据中存在的部分（例如，第二识别结果中的第三字符处缺少了“的”）；增添错误是指相比实际语音内容多出的部分（例如，第二识别结果的第一字符处多了“对”）；替换错误是指第二识别结果与第一校对结果相比，将原有内容识别为其它文字的部分（例如，第二识别结果的第七字符处将“对”识别为“叫”，以及第十三字符处将“还”识别为“很”）。

关于语音数据或其中的语音段的质量等级，可以通过词错率来确定。词错率定义为缺漏错误、增添错误和替换错误对应的词的数量之和与第一校对结果的词的数量的比率。例如，参考以上具体实施例，其中缺漏错误的词个数为1，增添错误的词个数为1，以及替换错误的词个数为2，而该第一校对结果应包含的词的总数量为15。因此，在此实施例中，词错率计算为：（1+1+2）/15=26.7%。在此处，“词”可以指一个中文字、一个英文字、或是存在的错误所对应的计算机中的位，但是需要注意的是，在计算比率时，需要统一第二识别结果中的错误对应的词与第一校对结果对应的总词数的理解和选择，以获得更合理的词错率。在一个实施例中，可以针对需要进行分类的语音质量等级来设定不同的词错率阈值。例如，可以设定：

1）当0%≤词错率<5%（语音数据或语音段的内容基本可以完全识别）时，确定语音数据或语音段为有效的语音数据或语音段；

2）当5%≤词错率＜70%（语音数据或语音段的内容有部分听不懂或发音不标准）时，确定语音数据或语音段为部分有效的语音数据或语音段；以及

3）当70%≤词错率≤100%（语音数据或语音段的内容基本上不能识别）时，确定语音数据或语音段为无效的语音数据或语音段。

当然，该质量等级可以根据需要进一步进行调整（例如，细化），并且各个阈值可以相应地发生改变。在一个实施例中，在语音段的实际内容可以完全识别（即，词错率=0%）的情况下，称所述语音段为有效语音段，此时校对人员可以不修改第一识别结果中的相应语音段或者确认第一识别结果中的相应段落与相应的语音段的实际内容一致即可。在一个实施例中，有效和部分有效的语音段可以用于后续地进行声学模型训练和语音识别测试，而无效语音段则不被这样使用。

关于语音的缺陷类型，可以基于所述缺漏错误、所述增添错误和所述替换错误对应的词的数量与相应的阈值之间的比较来确定（关于缺陷类型的确定操作在本文中可以被称为“智能纠错”）。在一个实施例中，可以针对不同的语音段长度或语音数据的词量，为缺漏错误、增添错误和替换错误对应的词的个数分别设置阈值D、I、S。

当缺漏错误的词个数超过预设阈值D（例如2）时，判断语音数据语速过快，可能是语音内容的语速过快而吞音或导致部分语音发音不标准或不到位。或者由于在步骤S120中，语音段的时间长度阈值过短，导致第一识别结果遗漏了部分词。

当增添错误的词个数超过预设阈值I（例如4）时，可能是在步骤S120中的时间长度阈值过长，导致第一识别结果相对第一校对结果出现了部分插入词。

当替换错误的词个数超过预设阈值S（例如5）时，可能是环境噪声过大而导致部分语音听不清楚，或者多人说话语音内容重叠使得部分语音难以识别，或者方言的影响而导致无法识别，从而导致第一识别结果中替换错误词太多。在此情况下，需标注人员进行再次校对，甚至根据语音的内容进行断句切分，获得至少一个所述有效语音段。该有效语音段的质量等级和/或缺陷类型在一定程度上可用来类推为整个语音数据的质量等级和/或缺陷类型。

在一些情况下，还可以例如在进行第一识别和/或第一校对之前，通过人工确定语音数据的质量等级和缺陷类型。

在可选步骤S160中，还可以将上述通过比较得到的与质量等级和/或缺陷类型相关的信息进行输出。在一个实施例中，该输出操作可以是实时的，可以是随着校对人员对识别结果的修改而不断更新的。实时反馈可以增加标注工作的趣味性以及提高标注准确性和效率。通过输出与质量等级和/或缺陷类型相关的信息，使得校对人员可以获知语音数据可能存在的问题，从而针对该问题进行针对性地二次校对，以获得第二校对结果。

在可选步骤S170中，接收上述第二校对结果，以供后续视情况而定进行存储、处理、分析、显示和应用。

在另一实施方式中，用于语音标注的方法包括：获取待标注的语音数据；生成与语音数据对应的第一识别结果；以及接收部分语音数据的质量等级和/或缺陷类型。

在此实施方式中，可以由语音识别系统首先获得某段除了将识别的语音之外的语音数据（部分语音数据）的质量等级和/或缺陷类型。该语音数据和将识别的语音数据之间可具有一定的关联性，例如，可以是来自同一人的语音数据，可以是由不同的人产生的关于同一段内容的语音数据，使用同一种方言产生的语音数据等。

在该实施方式中，用于语音标注的方法还包括输出与部分语音数据的质量等级和/或缺陷类型相关联的语音数据的质量等级和/或所述缺陷类型。由此，可以使得校对人员对将识别的语音数据的质量具有一定程度的认识，有助于其针对性地来校对语音数据的识别结果。用于语音标注的方法还包括接收基于语音数据以及质量等级和/或缺陷类型的第一校对结果，以用于后续的存储、编辑、处理等。

图2为根据本发明一实施例的用于语音标注的系统200的示意性框图。用于语音标注的系统200包括语音数据获取模块110、第一识别结果生成模块120、第二识别结果生成模块122、接收模块130和分析模块140。在一些实施例中，用于语音标注的系统200还包括输出模块150。

语音数据获取模块110配置成获取待标注的语音数据。该语音数据可以是各种应用场景中所积累的语音数据或者通过录制获得的语音数据等。事实上，任何需要进行标注的语音文件及数据（包括任何语言的文字和数字中的一种或多种）均可以称为本发明的实施对象，语音数据和语音段可类似地对待。在本文中，标注是指将语音数据转化为对应的文字数据，无论是通过机器或者人工或者其它任何可行的方式。语音数据获取模块110可以是或者可以连接到常见的音频输入设备，诸如麦克风或者是带有音频接收装置的任何设备（例如，带有音频接收装置的耳机、录音机、计算机等）。

第一识别结果生成模块120配置成生成与获取的语音数据对应的第一识别结果。在一个实施例中，第一识别结果可以是利用现有的语音识别系统（即，第一识别结果生成模块120）对语音数据进行初步识别来得到的数据。容易理解的是，通过语音识别系统得到的识别结果由于语音数据质量的多样性而存在或多或少的问题，需要进行进一步的处理来得到准确度较高的识别结果。第一识别结果可以是对应于语音数据的整段文字数据，也可以是分别对应于语音数据中的每一段（即，多个语音段）的多段文字数据，或者可以是多个对应的语音数据和文字数据对。语音段的长度可以是预设的时间长度阈值。

接收模块130配置成接收基于语音数据和第一识别结果的第一校对结果。该第一校对结果可以是通过人工基于语音数据得到的。第一校对结果可以包括对语音数据的断句。由于上述语音段也可以具有大于或小于预设时间长度阈值的长度，在此情况下，可以根据由人工语音的语义以及停顿来对语音进行划分断句，从而得到一定长度的语音段。优选地，第一校对结果包括基于语音数据，并且在第一识别结果的基础上修改得到的语音数据的内容。容易理解的是，经过人工修改的第一校对结果通常比通过机器初步识别获得的第一识别结果更准确。

第二识别结果生成模块122配置成基于第一校对结果来生成对应的第二识别结果。具体地，当通过人工将语音数据进行了断句之后，由第二识别结果生成模块122生成的第二识别结果将比第一识别结果更准确，这是由于因为机器识别导致的断句错误而产生的语音内容识别错误被减少了。

分析模块140配置成基于第二识别结果和第一校对结果，确定语音数据的质量等级和/或确定语音数据的缺陷类型。分析模块140可以以第一校对结果作为基本上正确的版本，来确定第二识别结果存在的问题。质量等级和缺陷类型都是基于通过上述比较获得的关于第二识别结果中存在的问题而分析得到的。所述问题可以是如上文所述的那些。

关于语音数据或其中的语音段的质量等级和缺陷类型，可以通过由分析模块140通过执行上述步骤S150来实现。在一些情况下，还可以例如在进行第一识别和/或第一校对之前，通过人工确定语音数据的质量等级和缺陷类型。

可选地，用于语音标注的系统200还包括输出模块150，其配置成将上述通过比较得到的与质量等级和/或缺陷类型相关的信息进行输出。在一个实施例中，输出模块150可以进行实时输出，可以随着校对人员对第一识别结果的修改而不断更新来输出。实时反馈可以增加标注工作的趣味性以及提高标注准确性和效率。通过输出与质量等级和/或缺陷类型相关的信息，使得校对人员可以获知语音数据可能存在的问题，从而针对该问题进行针对性地二次校对，以获得第二校对结果。

接收模块130还可以配置成接收上述第二校对结果，以供后续视情况而定进行存储、处理、分析、显示和应用。

在一种实施方式中，输出模块150是显示器，并且其界面可配置成包括以下模块：

模块1：标注系统菜单工具模块，可以用于导入语音数据的语音文件列表，保存语音文件的标注文本，以及设置标注文本的字体，背景和颜色，设置语音信号显示的窗宽长度，上下首语音文件的切换选择。

模块2：语音文件列表模块，可以用于显示语音数据的所有语音文件列表，供标注时选择使用。

模块3：标注文本显示模块，可以用于显示当前语音文件的所有语音段的待标注文本，其中可以每行代表一个语音段的标注文本，可以在标注时直接修改各行的标注文本。

模块4：语音信号显示与播放模块，可以用于与标注文本同步显示语音信号以及实时播放。

模块5：词错率显示模块，可以用于显示当前校对的语音段的词错率。

提供本文中提出的实施例和示例，以便最好地说明按照本技术及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本发明。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

Claims

1.一种用于语音标注的方法，其特征在于，包括以下步骤：

获取待标注的语音数据；

生成与所述语音数据对应的第一识别结果；

接收基于所述语音数据和所述第一识别结果的第一校对结果；

基于所述第一校对结果生成第二识别结果；以及

基于所述第二识别结果和所述第一校对结果，确定所述语音数据的质量等级和/或确定所述语音数据的缺陷类型。

2.根据权利要求1所述的用于语音标注的方法，其还包括步骤：

输出所述语音数据的所述质量等级和/或所述缺陷类型的信息。

3.根据权利要求2所述的用于语音标注的方法，其还包括步骤：

接收基于所述第一校对结果以及所述质量等级和/或所述缺陷类型的第二校对结果。

4.根据权利要求1所述的用于语音标注的方法，其中，在所述确定所述语音数据的质量等级和/或确定所述语音数据的缺陷类型的步骤中：

基于通过比较所述第二识别结果和所述第一校对结果而获得的关于缺漏错误、增添错误和替换错误的信息，确定所述语音数据的质量等级和/或确定所述语音数据的缺陷类型。

5.根据权利要求4所述的用于语音标注的方法，其中，在所述确定所述语音数据的质量等级的步骤中：

基于词错率来确定所述语音数据的质量等级，所述词错率定义为所述缺漏错误、所述增添错误和所述替换错误对应的词的数量之和与所述第一校对结果的词的数量的比率。

6.根据权利要求4所述的用于语音标注的方法，其中，在所述确定所述语音数据的缺陷类型的步骤中：

基于所述缺漏错误、所述增添错误和所述替换错误对应的词的数量与相应的阈值之间的比较来确定所述语音数据的缺陷类型。

7.根据权利要求1至6中任一项所述的用于语音标注的方法，其中，所述语音数据的所述质量等级包括下列中的一个或多个：有效、部分有效和无效。

8.根据权利要求1至6中任一项所述的用于语音标注的方法，其中，所述语音数据的所述缺陷类型包括下列中的一个或多个：语速过快、断句不明、背景嘈杂、语音重叠和存在方言。

9.根据权利要求7所述的用于语音标注的方法，其还包括步骤：

当确定所述质量等级为部分有效时，对所述语音数据进行切分，以获得至少一个所述质量等级为有效的语音段。

10.一种用于语音标注的方法，其特征在于，包括以下步骤：

获取待标注的语音数据；

生成与所述语音数据对应的第一识别结果；以及

接收部分所述语音数据的质量等级和/或缺陷类型。

11.根据权利要求10所述的用于语音标注的方法，其还包括步骤：

输出与部分所述语音数据的质量等级和/或缺陷类型相关联的所述语音数据的所述质量等级和/或所述缺陷类型。

12.根据权利要求11所述的用于语音标注的方法，其还包括步骤：

接收基于所述语音数据以及所述质量等级和/或所述缺陷类型的第一校对结果。

13.一种用于语音标注的系统，其特征在于，包括：

语音数据获取模块，其配置成获取待标注的语音数据；

第一识别结果生成模块，其配置成生成与所述语音数据对应的第一识别结果；

接收模块，其配置成接收基于所述语音数据和所述第一识别结果的第一校对结果；

第二识别结果生成模块，其配置成基于所述第一校对结果生成第二识别结果；以及

分析模块，其配置成基于所述第二识别结果和所述第一校对结果，确定所述语音数据的质量等级和/或确定所述语音数据的缺陷类型。

14.根据权利要求13所述的用于语音标注的系统，其中，所述用于语音标注的系统还包括：

输出模块，其配置成输出所述语音数据的所述质量等级和/或所述缺陷类型的信息。

15.根据权利要求14所述的用于语音标注的系统，其中，所述接收模块还配置成：

16.根据权利要求13所述的用于语音标注的系统，其中，所述分析模块还配置成：

17.根据权利要求16所述的用于语音标注的系统，其中，所述分析模块还配置成：

18.根据权利要求16所述的用于语音标注的系统，其中，所述分析模块还配置成：

19.根据权利要求13至18中任一项所述的用于语音标注的系统，其中，所述语音数据的所述质量等级包括下列中的一个或多个：有效、部分有效和无效。

20.根据权利要求13至18中任一项所述的用于语音标注的系统，其中，所述语音数据的所述缺陷类型包括下列中的一个或多个：语速过快、断句不明、背景嘈杂、语音重叠和存在方言。

21.根据权利要求19所述的用于语音标注的系统，其还包括：

语音数据处理模块，其配置成当确定所述质量等级为部分有效时，对所述语音数据进行切分，以获得至少一个所述质量等级为有效的语音段。