CN112863490B

CN112863490B - 一种语料获取方法及装置

Info

Publication number: CN112863490B
Application number: CN202110019112.1A
Authority: CN
Inventors: 马金龙; 熊佳; 汪暾; 罗箫; 焦南凯; 徐志坚; 谢睿; 陈光尧
Original assignee: Guangzhou Huancheng Culture Media Co ltd
Current assignee: Guangzhou Huancheng Culture Media Co ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2024-04-30
Anticipated expiration: 2041-01-07
Also published as: CN112863490A

Abstract

本申请公开了一种语料获取方法及装置，方法包括：获取语音样本；过滤语音样本中的截断语音以及无效语音，获取合格的语音样本；对合格的语音样本进行多次语音识别，得到多个对应的语音文本；将多个语音文本进行比对，得到相似度得分；若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的语音文本作为待标注语音文本；将待标注语音文本进行人工标注，得到标注样本。解决了现有技术获取训练用的语音样本时间周期长，花费成本高的技术问题。

Description

一种语料获取方法及装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语料获取方法及装置。

背景技术

伴随着人工智能的快速发展，以深度学习为框架的数据训练任务越来越多，为了达到较好的模型质量，前期获取高质量的数据集显得尤为重要。为了人机交互准确度达到人类沟通的效果，就需要收集垂直领域的语料作为数据集对识别引擎进行有监督的学习，以此获得高质量的识别模型。在实际项目开发中，语音数据收集占整个项目研发三分之一的周期，为了加快项目研发进度，就需要提升数据标注的效率。

纵观语音行业内的主流互联网公司语音研发部门，更多的是通过购买第三方的数据标注服务来完成数据集的收集和整理，此方法优点在于收集周期可控，数据质量有保障，配合严格的验收方法可以获得高质量数据集。然而，这种标注语音样本的方式花费成本较高，也可能会存在泄露信息的风险；因此，语音识别研发人员都会自主依据公司实际情况采取开发收集过滤清洗算法加人工校验的方式快速准确的开展数据收集工作。

发明内容

本申请实施例提供了一种语料获取方法及装置，解决了现有技术获取训练用的语音样本时间周期长，花费成本高的技术问题。

有鉴于此，本申请第一方面提供了一种语料获取方法，所述方法包括：

获取语音样本；

过滤所述语音样本中的截断语音以及无效语音，获取合格的所述语音样本；

对合格的所述语音样本进行多次语音识别，得到多个对应的语音文本；

将多个所述语音文本进行比对，得到相似度得分；

若所述相似度得分大于预设的相似度阈值，则将大于所述相似度阈值的所述语音样本作为待标注语音样本，并将文字内容最长的所述语音文本作为待标注语音文本；

将所述待标注语音文本进行人工标注，得到标注样本。

可选的，所述过滤所述语音样本中的截断语音，具体为：

截取每个所述语音样本的前端语音段和/或后端语音段；

计算所述前端语音段和/或所述后端语音段的能量；

若所述能量大于预设的能量阈值，则删除对应的所述语音样本。

可选的，过滤所述语音样本中的无效语音，具体为：

采用语音有效性检测方法检测所述语音样本，得到所述语音样本对应的置信度，若所述置信度小于预设的置信度阈值，则删除对应的所述语音样本。

可选的，在所述将所述待标注语音文本进行人工标注，得到标注样本，之后还包括：

将所述标注样本中存在无法单独确定的所述待标注语音文本，进行多人标注，并将标注结果进行交叉验证，确定最终标注结果。

可选的，在所述将所述待标注语音文本进行人工标注，得到标注样本之后，还包括：

根据训练场景的不同，选择合适的所述标注样本作为深度学习所需的训练样本。

本申请第二方面提供一种语料获取装置，所述装置包括：

获取单元，用于获取语音样本；

过滤单元，用于过滤所述语音样本中的截断语音以及无效语音，获取合格的所述语音样本；

识别单元，用于对合格的所述语音样本进行多次语音识别，得到多个对应的语音文本；

对比单元，用于将多个所述语音文本进行比对，得到相似度得分；

预标注单元，用于若所述相似度得分大于预设的相似度阈值，则将大于所述相似度阈值的所述语音样本作为待标注语音样本，并将文字内容最长的所述语音文本作为待标注语音文本；

人工标注单元，用于将所述待标注语音文本进行人工标注，得到标注样本。

可选的，所述过滤单元包括：

截取单元，用于截取每个所述语音样本的前端语音段和/或后端语音段；

计算单元，用于计算所述前端语音段和/或所述后端语音段的能量；

删除单元，用于若所述能量大于预设的能量阈值，则删除对应的所述语音样本。

可选的，所述过滤单元还包括：

有效性检测单元，用于采用语音有效性检测方法检测所述语音样本，得到所述语音样本对应的置信度，若所述置信度小于预设的置信度阈值，则删除对应的所述语音样本。

可选的，交叉验证单元，用于将所述标注样本中存在无法单独确定的所述待标注语音文本，进行多人标注，并将标注结果进行交叉验证，确定最终标注结果。

可选的，样本选择单元，用于根据训练场景的不同，选择合适的所述标注样本作为深度学习所需的训练样本。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种语料获取方法，包括：获取语音样本；过滤语音样本中的截断语音以及无效语音，获取合格的语音样本；对合格的语音样本进行多次语音识别，得到多个对应的语音文本；将多个语音文本进行比对，得到相似度得分；若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的语音文本作为待标注语音文本；将待标注语音文本进行人工标注，得到标注样本。

本申请通过过滤语音样本中的截断语音以及无效语音，获取合格的语音样本，删除了不可用的语音样本，降低了标注数量且提供了高质量的样本；通过对合格的语音样本进行多次语音识别得到的多个语音文本，将多个语音文本进行比对，得到相似度得分从而确定待标注语音样本，可以得到更加完整可用的待标注语音样本；通过将文字内容最长的所述语音文本作为待标注语音文本，使得在人工标注的时候不用手动增加字，加快了标注速度；本申请还通过人工标注的方法，仅需要人为的校准和修正待标注语音样本，就能得到所需的标注样本，使得大大提高了项目的研发周期，也节省了标注成本。

附图说明

图1为本申请一种语料获取方法的一个实施例的方法流程图；

图2为本申请一种语料获取方法的另一个实施例的方法流程图；

图3为本申请实施例中截断语音和非截断语音的能量对比示意图；

图4为本申请一种语料获取装置的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请中一种语料获取方法的一个是实施例的方法流程图，如图1所示，图1中包括：

101、获取语音样本；

需要说明的是，本申请可以从云端爬取需要的语音样本，由于从云端爬取的语音样本大多都是MP3和M4A格式的音频文件，而实际语音识别训练的需要的语音样本的格式为WAV格式，因此，本申请可以将爬取的语音样本进行转码得到WAV格式的语音样本。

102、过滤语音样本中的截断语音以及无效语音，获取合格的语音样本；

需要说明的是，本申请中可以将获取的语音样本进行过滤，过滤语音样本中的不合格样本，得到合格的语音样本。其中，不合格样本可以包括截断的语音样本(语音中的内容不完善、缺失)或者无效语音样本(低质量的语音样本)。

103、对合格的语音样本进行多次语音识别，得到多个对应的语音文本。

需要说明的是，本申请可以对合格的语音样本进行多次语音识别，每次语音识别都对应有一个语音文本，即每个语音样本可以对应多个经过语音识别得到的语音文本，其中语音文本可以为语音样本中的文字内容。

104、将多个语音文本进行比对，得到相似度得分。

需要说明的是，本申请可以将多个语音文本进行比对，计算多个语音文本的文本差异，从而根据差异计算得到文本的相似度得分。例如，如果仅有两组语音文本，则可以将语音文本进行两两比对，得到相似度；如果存在两组以上的语音文本，则将语音文本进行两两对比得到多组相似度，再将得到的相似度求平均，得到平均相似度，即为相似度得分。

105、若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的所述语音文本作为待标注语音文本。

需要说明的是，当相似度得分大于预设的相似度阈值时，则将大于相似度阈值的语音样本作为待标注语音样本，即同一个语音样本的语音识别结果的有较大的相似时，语音样本才能作为可被标注的语音样本；将文字内容最长的所述语音文本作为待标注语音文本，即具体的标注过程需要对待标注语音文本进行标注。

106、将待标注语音文本进行人工标注，得到标注样本。

需要说明的是，将待标注语音文本进行人工标注，得到标注样本。具体的，将人工标注这一步骤是为了把关语音样本的质量，通过人为的方法对标注结果进行校验或者修正错误的预标注结果，从而获得正确的标注样本。

本申请还提供了一种语料获取方法的另一个实施例，如图2所示，图2中还包括：

201、获取语音样本；

202、截取每个语音样本的前端语音段和/或后端语音段；

需要说明的是，由于发生前后截断的语音样本存在内容不完整的地方，因此，对于截断的语音样本可以选取每个语音样本的前端语音段和/或后端语音段，对前端语音段和/或后端语音段进行分析，判断前端语音段和/或后端语音段是否为截断的语音样本。例如，可以截取语音样本最前端和/或最后段的[1:1600]个点保存，按实际16KHz采样，相当于截取语音样本前和/或后100ms的语音数据进行判断。具体的截断的语音样本与非截断的语音样本的能量对比图如图3所示，显而易见，截断的语音样本的前端语音段和后端语音段是存在一定的高能量区。

203、计算前端语音段和/或后端语音段的能量；

需要说明的是，本申请可以采用计算前端语音段和/或后端语音段的能量的方法进行判断；例如，可以对语音样本的前和/或后1600个点做能量计算，每个点归一化后平方并相加求和，最终得到[0:1600]个点的短时能量。

204、若能量大于预设的能量阈值，则删除对应的语音样本；

需要说明的是，当计算的得到的能量大于预设的阈值，则表示该语音样本为截断的语音样本，不满足标注语音的质量需求，则删除对应的语音样本。具体的，当计算得到的能量小于阈值(实际使用时候为1.5)时，则认为该语音样本为非截断的语音样本，当计算得到的能量大于阈值时，则认为该语音样本为截断的语音样本，同时删除该语音样本，结束本条语音样本的过滤，再对下一条语音样本进行过滤。

205、采用语音有效性检测方法检测语音样本，得到语音样本对应的置信度，若置信度小于预设的置信度阈值，则删除对应的语音样本；

需要说明的是，本申请可以采用基于决策树的多特征有效性检测方法，对语音样本进行检测，计算得到每条语音样本对应的置信度，将得到的置信度与预设的置信度阈值进行比较，若置信度小于预设的置信度阈值，则删除对应的语音样本。

本申请采用的基于决策树的多特征有效性检测方法具体为：先是对输入语音样本做预处理分帧加窗，然后计算每一帧语音帧的短时能量，短时平均过零率，共振峰，谱平坦度以及峰谷比，接下来利用已经训练好的决策树模型对短时能量，短时平均过零率，共振峰，谱平坦度以及峰谷比进行判别，得到每一帧语音帧是否有效的标签，最终给出语音样本有效的平均置信度作为置信度阈值，若语音样本的置信度大于置信度阈值，则说明语音样本有效；置信度小于置信度阈值则说明语音样本无效概率，具体的置信度阈值也可以依据业务情况决定。

在一种具体的实施方式中，当置信度低于0.65时候，则判定语音样本低质量语音样本，因此通过有效性检测方法以及预置对比方法可以删除掉语音样本中的低质量样本，再对下一条语音过滤；当置信度高于0.65时候，属于合格语料，将合格语音样本进行保存。

本申请为了便于大数据量的搬移，每次把过滤后的合格的语音样本移动的另外的路径保存，以便于后续语音识别及人工标注能顺利进行。由于每次过滤的语音样本的数据量很大，可能每天过滤的数据量达到几十万条以上，为了提升效率，每次过滤都会按过滤结果直接选择保存还是删除语料，同时在结束的日志中增加对应的过滤结果标签，以便评估过滤系统的准确性。

206、对合格的语音样本进行多次语音识别，得到多个对应的语音文本；

需要说明的是，本申请可以对合格的语音样本进行多次语音识别得到多个对应的语音文本，当然也可以通过多种不同的语音识别方法对同一个语音样本进行识别得到多个对应的语音文本，还可以通过不同厂家的语音识别技术对同一个语音样本进行识别得到多个对应的语音文本。

207、将多个语音文本进行比对，得到相似度得分；

需要说明的是，本申请可以采用基于文件的编辑距离计算多个语音文本的相似度，编辑距离越大则相似度得分越低，则表示多个语音文本识别得到的文本差异很大，不适合作为标注语音文本，则删除对应的语音样本和语音文本。例如，如果仅有两组语音文本，则可以将语音文本进行两两比对，得到相似度；如果存在两组以上的语音文本，则将语音文本进行两两对比得到多组相似度，再将得到的相似度求平均，得到平均相似度，即为相似度得分。

其中，采用基于文件的编辑距离(Minimum Edit Distance，MED)计算多个语音文本的相似度的方法具体为：编辑距离，又称Levenshtein距离，是指两个字符串之间，由一个字符转成另一个字符所需要的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符(substitution，s)，插入一个字符(insert，i)或者删除一个字符(delete，d)，此算法中，默认添加和删除一个字符时需要的距离为1修改一个字符时需要的距离为2，距离越小则表示相似度越高。

208、若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的语音文本作为待标注语音文本；

需要说明的是，若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的语音文本作为待标注语音文本；例如，本申请可以采用百分制来表示相似度得分，当相似度得分大于90分的则语音样本属于待标注语音文本，则可以进入人工标注环节。

由于本申请可以得到多个语音文本，因此需要从多个语音文本中选择合适的语音文本作为人工标注环节需要用到的待标注语音文本；例如，当出现语音识别得到的多个语音文本完全一样时，则选择任意一个语音文本作为待标注语音文本；若多个语音文本的相似度得分都满足大于相似度阈值，但是存在个别漏字和加字情况，本申请可以选择多个语音文本中有效文本最长的语音文本作为待标注语音文本，使得人工标注的时候能够加快速度，而不用手动增加字，仅需要对待标注语音文本进行修改和校准。

209、将待标注语音文本进行人工标注，得到标注样本；

需要说明的是，将待标注语音文本进行人工标注，得到标注样本，本申请的人工标注环节仅需要对待标注语音文本进行修改和校准，以此获得正确的语音文本的内容。

210、将标注样本中存在无法单独确定的待标注语音文本，进行多人标注，并将标注结果进行交叉验证，确定最终标注结果；

需要说明的是，针对人工标注中存在的单人单独无法确定的标注结果，则对相应的标注样本重新进行多人标注，并将标注结果进行交叉验证，最后由多个标注者给出统一标注结果，确定最终标注结果。

211、根据训练场景的不同，选择合适的标注样本作为深度学习所需的训练样本。

需要说明的是，由于每一次训练场景会有不同要求，因此，可以选择合适的标注样本作为训练样本，以便符合相应的训练场景需求。本申请还可以按深度学习训练框架的要求对应生成多级文件夹格式，对标注样本进行整理，以便于下一次训练时，能够快速选择正确的标注样本。

以上是本申请的方法的实施例，本申请还提供了一种语料获取装置的一个实施例，如图4所示，图4中包括：

获取单元301，用于获取语音样本；

过滤单元302，用于过滤语音样本中的截断语音以及无效语音，获取合格的语音样本；

识别单元303，用于对合格的语音样本进行多次语音识别，得到多个对应的语音文本；

对比单元304，用于将多个语音文本进行比对，得到相似度得分；

预标注单元305，用于若相似度得分大于预设的相似度阈值，则将大于相似度阈值的语音样本作为待标注语音样本，并将文字内容最长的语音文本作为待标注语音文本；

人工标注单元306，用于将待标注语音文本进行人工标注，得到标注样本。

在一种具体的实施方式中，过滤单元302包括：

截取单元，用于截取每个语音样本的前端语音段和/或后端语音段；

计算单元，用于计算前端语音段和/或后端语音段的能量；

删除单元，用于若能量大于预设的能量阈值，则删除对应的语音样本。

过滤单元302还包括：

有效性检测单元，用于采用语音有效性检测方法检测语音样本，得到语音样本对应的置信度，若置信度小于预设的置信度阈值，则删除对应的语音样本。

在一种具体的实施方式中，还包括：

交叉验证单元，用于将标注样本中存在无法单独确定的待标注语音文本，进行多人标注，并将标注结果进行交叉验证，确定最终标注结果。

样本选择单元，用于根据训练场景的不同，选择合适的标注样本作为深度学习所需的训练样本。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语料获取方法，其特征在于，包括：

获取语音样本；

过滤所述语音样本中的截断语音以及无效语音，获取合格的所述语音样本；其中，过滤所述语音样本中的无效语音，具体为：

采用语音有效性检测方法检测所述语音样本，得到所述语音样本对应的置信度，若所述置信度小于预设的置信度阈值，则删除对应的所述语音样本；

所述有效性检测方法具体为：

对输入语音样本做预处理分帧加窗，计算每一帧语音帧的短时能量，短时平均过零率，共振峰，谱平坦度以及峰谷比，利用已经训练好的决策树模型对短时能量，短时平均过零率，共振峰，谱平坦度以及峰谷比进行判别，得到每一帧语音帧是否有效的标签，最终给出语音样本有效的平均置信度作为置信度阈值，若语音样本的置信度大于置信度阈值，则说明语音样本有效；置信度小于置信度阈值则说明语音样本无效概率；

将多个所述语音文本进行比对，得到相似度得分；

将所述待标注语音文本进行人工标注，得到标注样本。

2.根据权利要求1所述的语料获取方法，其特征在于，所述过滤所述语音样本中的截断语音，具体为：

截取每个所述语音样本的前端语音段和/或后端语音段；

计算所述前端语音段和/或所述后端语音段的能量；

3.根据权利要求1所述的语料获取方法，其特征在于，在所述将所述待标注语音文本进行人工标注，得到标注样本，之后还包括：

4.根据权利要求1所述的语料获取方法，其特征在于，在所述将所述待标注语音文本进行人工标注，得到标注样本之后，还包括：

5.一种语料获取装置，其特征在于，包括：

获取单元，用于获取语音样本；

过滤单元，用于过滤所述语音样本中的截断语音以及无效语音，获取合格的所述语音样本；其中，过滤所述语音样本中的无效语音，具体为：

所述有效性检测方法具体为：

6.根据权利要求5所述的语料获取装置，其特征在于，所述过滤单元包括：

7.根据权利要求5所述的语料获取装置，其特征在于，还包括：

交叉验证单元，用于将所述标注样本中存在无法单独确定的所述待标注语音文本，进行多人标注，并将标注结果进行交叉验证，确定最终标注结果。

8.根据权利要求5所述的语料获取装置，其特征在于，还包括：

样本选择单元，用于根据训练场景的不同，选择合适的所述标注样本作为深度学习所需的训练样本。