CN112201225A

CN112201225A - 一种语料获取的方法、装置、可读存储介质和电子设备

Info

Publication number: CN112201225A
Application number: CN202011065772.5A
Authority: CN
Inventors: 陈昌儒
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: CN112201225B

Abstract

本发明实施例公开了一种语料获取的方法、装置、可读存储介质和电子设备。本发明实施例通过爬取网络数据源，获取第一语料信息；根据第一语料信息获取所述第一语料信息对应的第一文本信息；将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法，可以基于网络数据源自动确定出高质量的语料信息和文本信息，既提高了收集到的语料的质量，又节约了人力资源。

Description

一种语料获取的方法、装置、可读存储介质和电子设备

技术领域

本发明涉及语音处理领域，具体涉及一种语料获取的方法、装置、可读存储介质和电子设备。

背景技术

随着科技的发展，人工智能逐渐深入到人们的工作和生活中，例如，智能电视、智能空调、智能音箱、汽车、手机、以及计算机都可以接收人的语音指令进行开启、关闭、以及播放等操作；智能设备需要将接收到的语言指令转换为文本后，进行操作，因此需要一个准确性高的自动语音识别模型，而训练一个准确性高的自动语音识别模型需要质量良好的语料。

现有的语料收集方案基于两种方式，方式一、对公开渠道的媒体资源进行收集；方式二、录音人员利用录音设备(麦克风、电脑等)录音，对于录制好的语音，再由专门的数据标注人员对数据进行整理，其中，包括对录制好的语音的准确性进行判断(一般都是通过抽取样本去听)、对音频进行分割、然后对分割后的音频进行归类，从而完成语音语料的采集；方式一的语料收集的方式虽然有足够的语料内容，但准确率较差；方式二的语料收集方式虽然会保证语料一定的准确率，但耗时耗力，且人工处理的过程中会出现一定的误差，并且收集的语料具有局限性。

综上所述，如何在不浪费人力资源的情况下，获取质量良好的语料是目前需要解决的问题。

发明内容

有鉴于此,本发明实施例提供了一种语料获取的方法、装置、可读存储介质和电子设备，提高了收集到的语料的质量、并且节约了人力资源。

第一方面，本发明实施例提供了一种语料获取的方法，该方法包括：爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

在一个实施例中，将所述第一语料信息转换为设定的音频格式，并将所述第一文本信息转换为设定的文本格式，并分别将转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置。

在一个实施例中，所述将所述第一文本信息转换为设定的文本格式，具体包括：

将所述第一文本信息转换为srt格式的第一文本信息；

将所述srt格式的第一文本信息转换为txt格式的第一文本文本，其中，所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。

在一个实施例中，所述将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息，具体包括：

在所述第一位置获取所述第一语料信息；

根据所述第一语料信息在所述第二位置中查询第一文本信息，响应于在所述第二位置中查询到所述第一文本信息，获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息，其中，所述文本时间戳包括开始时间戳和结束时间戳；

通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断；

响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段，将两个所述非语音段的中心点对应的时间分别作为第二语料信息的开始时间和结束时间；

将所述第二语料信息对应的文本信息确定为第二文本信息。

在一个实施例中，该方法还包括：将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置。

在一个实施例中，所述打分模型为XGboost模型。

在一个实施例中，该方法还包括：根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型；

响应于更新后的所述ASR模型的效果增益为正，则更新所述训练后的ASR模型。

在一个实施例中，该方法还包括：响应于更新后的所述ASR模型的效果增益为负，则不更新所述ASR模型，重新爬取网络数据源，获取所述第一语料信息。

第二方面，本发明实施例提供了一种语料获取的装置，该装置包括：

第一获取单元，爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；

第二获取单元，根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；

确定单元，将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；

所述确定单元还用于，根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

在一个实施例中，该装置还包括：转换单元，用于将所述第一语料信息转换为设定的音频格式，并将所述第一文本信息转换为设定的文本格式，并分别将转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置。

在一个实施例中，所述转换单元具体用于：

将所述第一文本信息转换为srt格式的第一文本信息；

在一个实施例中，所述确定单元具体用于：

在所述第一位置获取所述第一语料信息；

将所述第二语料信息对应的文本信息确定为第二文本信息。

在一个实施例中，该装置还包括：存储单元，用于将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置。

在一个实施例中，所述打分模型为XGboost模型。

在一个实施例中，该装置还包括：更新单元，用于根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型；

在一个实施例中，所述更新单元还用于：响应于更新后的所述ASR模型的效果增益为负，则不更新所述ASR模型，重新爬取网络数据源，获取所述第一语料信息。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过爬取网络数据源，获取第一语料信息；根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法，可以基于网络数据源自动确定出高质量的语料信息和文本信息，既提高了收集到的语料的质量，又节约了人力资源。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是现有技术中的一种语料获取的方法示意图；

图2是本发明的一种语料获取的方法流程图；

图3是本发明的一种爬取网络数据源的方法流程图；

图4是本发明的一种音频格式转换的方法流程图；

图5是本发明的一种文本格式转换的方法流程图；

图6是本发明的一种语料获取的方法流程图；

图7是本发明的一种第一语料信息的结构示意图；

图8是本发明的一种训练XGboost模型的方法流程图；

图9是本发明的一种数据流向示意图；

图10是本发明的语料获取的装置示意图；

图11是本发明的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

通常在现有技术中，语料获取的手段主要是通过以下两种方式：方式一、购买语料库和免费的公开渠道；方式二、录音人员拍摄标注处理获得语料。具体的，采用方式一获取语料时，采用购买语料库的方法是在收费平台上购买特定的语料，这些平台上获取的语料资源成本较高，其中，收费平台可能包括英国国家语料库、语言开放典藏社群等，不同类型的语料库只包含相应类型的语料；采用公开渠道，需要花费较长时间筛选，且目前的免费的公开渠道较少，无法根据目前的实际需求去保存和筛选语料内容；免费的公开渠道包括美国当代英语语料库等，在美国当代英语语料库内包含一些英文的文本小说、口语、杂志、报纸、学术文章等。获得免费的语料数据库的时间成本较高，而且大部分情况下所获得的语料库的范围有局限，进而导致经常无法获得有效的语料数据，并且很多获得的语料数据都是不全面的。采用方式二获取语料时，录音人员利用录音设备(麦克风、电脑等)录音，对于录制好的语音，再由专门的数据标注人员对数据进行整理，首先对录制好的语音的准确性进行判断，然后对音频进行分割，进而对理获得语料的方式的过程需要经过录音阶段和整理阶段，在录音阶段，分割后的音频进行归类，从而完成语音语料的采集，具体的采集过程如图1所示，采用自己拍摄标注处录音人员通过音频获取设备(例如，手机)进行录音，并根据通过电脑进行逐一的试听，进而录音人员按照一定规则存储为固定类型的MP3格式的音频文档；在整理阶段，数据标注人员通过分割、归类、存储三个步骤进行整理，首先，需要对语料资源按照语音进行语言分割转换成多段需求的WAV格式音频文档，进而将多个语料数据根据数据源的类型、名字和资源内容进行分类，最终，按照固定的分类规则进行存储，最终存储为一个WAV格式的目标文件。现有的语料收集方式存在耗时耗力、具有局限性等问题，因此，如何在不依靠人力情况下，自动语料收集和筛选是目前需要解决的问题。

图2是本发明实施例的一种语料获取的方法流程图。如图2所示，具体包括如下步骤：

步骤S200、爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息。

具体的，所述爬取网络数据源是指通过网络爬虫技术进行自动完成网络数据的收集，其中，网络数据可以包括网页上的音频信息和视频信息；本发明实施例中，对利用网络爬虫技术在网络上爬取的有价值的音频信息或视频信息的格式不做限定，可以为MP4、MP3、WAV、AVI、MPG4中的任一种。

在一个或多个实施例中，对所述网络数据源的类型不做限定，可以包括美剧、演讲、学习资料等类型，在步骤S200之前，可以人工确定需要爬取的网络数据源的类型，也可以在网络数据源列表中随机选择需要爬取的网络数据类型，或者，在网络数据源列表中逐一选择需要爬取的网络数据类型，其中，所述网络数据源列表为预先设置的包括多个数据源类型的列表。

步骤S201、根据所述第一语料信息获取所述第一语料信息对应的第一文本信息。

在一个或多个实施例中，由于获取到的所述第一语料信息和所述第一文本信息的格式可能为多种不同的类型，因此需要将所述第一语料信息转换为设定的音频格式，较佳的，所述设定的音频格式为WAV格式，即当所述第一语料信息的格式为WAV格式之外的其它格式时，统一转换为WAV格式，并将所述第一文本信息转换为设定的文本格式；举例说明，假设第一语料信息的格式为MP4、MP3、AVI、MPG4，需要统一转换为WAV格式，并且获取到的所述第一语料信息与对应的所述第一文本信息进行文件命名时，采用相同的文件命名，例如，所述第一语料信息的文件名称为美剧aaa.mp4，对应的第一语料信息的文件名称为美剧aaa.txt；然后分别将格式转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置，其中，所述第一位置和所述第二位置可以在相同的存储设备，也可以在不同的存储设备，本发明实施例对其不做限定。

在一个或多个实施例中，设置所述第一语料信息的编号，根据所述第一语料信息的编号，确定所述第一文本信息的编号，其中，所述第一文本信息的编号与对应的所述第一语料信息的编号相同，文件格式不同。

在一个或多个实施例中，所述将所述第一文本信息转换为设定的文本格式，具体包括：将所述第一文本信息从ass格式的文本转换为srt格式的第一文本信息；将所述srt格式的第一文本信息转换为txt格式的第一文本文本，其中，所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容；具体的，所述文本时间戳包括开始时间戳和结束时间戳，所述文本帧数信息为开始帧和结束帧；假设所述第一文本信息为美剧，文本内容包括英文字幕和中文字幕。

步骤S202、将所述第一语料信息通过语音活动检测(Voice Activity Detection，VAD)模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息。

在一个或多个实施例中，将第一语料信息按照VAD模型进行切分，生成多个第二语料信息，所述第二语料信息为第一语料信息中的一部分，根据切分获取的第二语料信息对应的第二文本信息自然是第一文本信息中的一部分，将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置，具体的切分过程在本发明实施例后面的具体实施例中进行详细说明，其中，所述第三位置和所述第四位置可以在相同的存储设备，也可以在不同的存储设备，本发明实施例对其不做限定。

在一个或多个实施例中，设置所述第二语料信息的编号，根据所述第二语料信息的编号，确定所述第二文本信息的编号，其中，所述第二文本信息的编号与对应的所述第二语料信息的编号相同，文件格式不同。

步骤S203、根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，具体的，根据语料信息的流利度、识别准确率以及发音良好度(Goodness of Pronunciation，GOP)等确定语料信息的质量；例如，所述识别准确率越高，所述语料信息的质量越好，对应的分值越高；所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

具体的，所述打分模型为XGboost模型。

在一个或多个实施例中，假设所述分值越高，所述第二语料信息的质量越好，根据所述第二语料信息以及所述第二文本信息训练出的ASR模型的性能越好。

在一个或多个实施例中，还可以通过更新前的ASR模型对所述第二语料信息进行打分，本发明实施例对所述第二语料信息的打分方式不做限定。

本发明实施例中，通过上述步骤200至步骤S203的处理方法，可以自动爬取网络数据源，然后通过VAD模型以及打分模型，自动确定出高质量的语料信息和文本信息。

在一个或多个实施例中，通过确定出的第二语料信息和第二文本信息，对所述ASR模型进行更新，具体的，根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型；响应于更新后的所述ASR模型的效果增益为正，则更新所述训练后的ASR模型；举例说明，假设更新前的ASR模型训练时采用的是初始训练语料，所述第二语料信息以及所述第二文本信息为更新训练语料，将初始训练语料与更新训练语料相结合，用于更新训练ASR模型；然后判断更新后的ASR模型的效果增益，假设，更新后的ASR模型在测试集上的字错率(word error rate，Wer)变小，说明更新后的ASR模型的增益为正向，保留所述更新后的ASR模型；即根据ASR模型效果的变化，对进一步的语料收集提供正反馈或负反馈；其中，所述字错率是将通过ASR模型识别出来的全部字与测试集中的全部字进行比较，确定出需要进行插入、删除和替换部分字之后才能与测试集中的全部字完成相同的所述部分字的个数，所述部分字的个数与测试集中的全部字的总数的比值为所述字错率，所述字错率越低表示所述ASR模型效果越好。

在此基础上，再次执行上述图2的处理过程，获取新的更新训练语料，继续对ASR模型进行迭代更新训练，直至所述ASR模型达到设定的指标，例如，测试集上字错率小于设定阈值，停止迭代更新所述ASR模型。

在一个或多个实施例中，响应于更新后的所述ASR模型的效果增益为负，则不更新所述ASR模型，重新爬取网络数据源，获取所述第一语料信息；例如，假设更新前的ASR模型训练时采用的是初始训练语料，所述第二语料信息以及所述第二文本信息为更新训练语料，将初始训练语料与更新训练语料相结合，用于更新训练ASR模型；然后判断更新后的ASR模型的效果增益，假设更新后的ASR模型在测试集上的字错率变大，说明更新后的ASR模型的增益为负向，放弃此次更新后的ASR模型，重新爬取网络数据源。

在一个或多个实施例中，所述ASR模型是一种将人的语音转换为文本的技术；所述ASR模型为一种神经网络模型的结构，具体可以为所述神经网络可以为深度神经网络(DeepNeural Networks，DNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent Neural Network，RNN)、或者BLSTM(Bi-LSTM，双向长短期记忆网络)中的任一种，本发明实施例对其不做限定；所述ASR模型是输入为音频，输出为文本。

下面通过几个具体实施例分别对图2中涉及的爬取网络数据源、音频和视频格式转换、文本格式转换、VAD模型对语料进行切分等等的具体方法流程进行详细说明。

在一个具体的实施例中，所述步骤S200中所述爬取网络数据源的方法流程如图3所示，具体包括如下步骤：

步骤S300、服务器询问统一资源定位器(Uniform Resource Locator，URL)，确定是否存在待爬取的URL。

步骤S301、响应于存在所述待爬取的URL，则获取第一个待爬取的URL地址，并将所述URL地址传递给网页下载器进行网页内容的下载。

步骤S302、响应于不存在所述待爬取的URL，则继续等待下一次询问，返回步骤S300。

其中，询问统一资源定位器URL的时间间隔是可以根据实际情况进行设置的，例如，所述时间间隔可以为5ms、10ms、1s等，本发明实施例对其不做限定。

步骤S303、在步骤S301之后，将下载后的网页内容传递给网页解析器，解析确定有价值的网络数据和新的URL列表，发送至服务器。

步骤S304、所述服务器确定收集到的网络数据达到预先设定的条件，输出所述网络数据，所述网络数据即爬取到的第一语料信息。

在一个或多个实施例中，所述网络数据是初始语料信息，对所述初始网络进行进行过滤和筛选，确定出第一语料信息。

在一个或多个实施例中，所述的网络爬虫技术还可以包括Python，还可以采用其他技术或算法，本发明实施例对其不做限定。随着互联网+等概念的不断普及，网络信息量呈现突发式增长，采用自动获取第一语料信息的方式，可以自动完成网络数据的挖掘与分析，相比于以往技术方案中的收集方式，提高了自动化程度，降低了语料收集的难度。

在一个具体的实施例中，所述第一语料信息转换音频格式的具体过程如图4所示，具体包括如下步骤：

步骤S400、获取所述第一语料信息中的音频信息和视频信息，其中，所述音频信息和视频信息的格式包括MP4、MP3、WAV、AVI以及MPG4中的任一种。

步骤S401、将所述不同格式的音频信息和视频信息转换为统一的音频格式。

例如，将音频信息的格式转换为16kH的WAV格式。

步骤S402、将统一格式后的音频信息存储到第二位置。

通过上述方法，对音频信息和视频信息的格式进行转换，提高了处理效率。

在一个具体的实施例中，所述第一文本信息转换为设定的文本格式的具体过程如图5所示，具体包括如下步骤：

步骤S500、获取所述第一语料信息中的语音信息和视频信息对应的第一文本信息，其中，所述文本信息可以为字幕信息，所述字幕信息的格式可以包括srt格式，ssa格式，ass格式中的任一种。

在一个或多个实施例中，若所述文本信息的格式为srt格式的其它格式，例如ssa格式，将所述ssa格式转换为srt格式。

步骤S501、将所述第一文本信息转换为统一的设定格式，其中，设定的格式可以为UTF-8编码。

具体的，将所述第一文本信息转换为统一的设定格式也可以称为所述第一文本信息转换为统一编码，例如，转化为UTF-8编码，所述UTF-8是Linux系统下一种用于将宽字符值转换为字节流的统一的字符编码标准(Unicode)的标准机制，UTF-8_encode(编码)是PowerBuilder的函数，该函数将数据(data)字符串转换为UTF-8编码，并返回编码后的字符串。

步骤S502、将所述第一文本信息从ass格式的文本转换为srt格式的第一文本信息。

步骤S503、将所述srt格式的第一文本信息转换为txt格式的第一文本信息，其中，所述txt格式的第一文本信息中包括文本时间戳、文本帧数信息以及文本内容。

步骤S504、将所获得统一格式的文本信息存储在所述第一位置。

在一个或多个实施例中，字幕信息的种类可分为硬字幕、软字幕及外挂字幕等，本发明实施例主要针对外挂字幕，是将字幕信息单独做成一个文件，字幕信息文件有多种格式，例如，srt格式，ssa格式，ass格式，所述外挂字幕的优点是不破坏视频画面，可随时根据需要更换字幕信息语言，并且可随时编辑字幕信息内容，但是播放较为复杂，需要相应的字幕信息播放工具支持。

在一个具体的实施例中，所述将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息的具体过程如图6所示，具体包括如下步骤：

步骤S600、在所述第一位置获取所述第一语料信息。

举例说明，假设第一语料信息名字为美剧aaa.mp4，在所述第一位置获取所述美剧aaa.mp4。

步骤S601、根据所述第一语料信息在所述第二位置中查询第一文本信息，响应于在所述第二位置中查询到所述第一文本信息，获取所述第一文本信息中包括的所述文本时间戳和所述文本帧数信息，其中，所述文本时间戳包括开始时间戳和结束时间戳。

具体的，判断在所述的第二位置内是否存在与所述第一语料信息对应的第一文本信息，响应于在所述第二位置中查询到所述第一文本信息，则进行后续处理，响应于在所述第二位置中没有查询到所述第一文本信息，则删除所述第一语料信息，其中，所述第一语料信息与第一文本信息的对应关系可以为具有相同的文件命名，例如，当在第一位置中的第一语料信息名字为美剧aaa.mp4，同时在第二位置中的第一文本信息名字为美剧aaa.txt时，所述文件命名相同但格式不同的所述第一语料信息与所述第一文本信息之间具有对应关系。

在一个或多个实施例中，存储在第一位置的第一语料信息和存储在第二位置的第一文本信息之间的对应关系还可以包括文件命名、时长和标签等，响应于所述文件命名、时长和标签均相同，认为所述的存储在第二位置的第一文本信息与存储在第一位置的第一语料信息是对应关系，本发明实施例对其不做限定。

步骤S602、通过VAD模型在所述开始时间戳和所述结束时间戳的范围内对非语音段进行判断。

具体的，所述第一语料信息中包括语音段和非语音段，其中，语音段可以用于表征包含非噪声信号的片段，所述非语音段可以用于表征不包含非噪声信号的片段。

步骤S603、响应于所述开始时间戳和所述结束时间戳的范围内存在所述非语音段，将两个所述非语音段的中心点对应的时间分别作为第二语料信息的开始时间和结束时间。

在一个或多个实施例中，在所述开始时间戳之前的设定时长(例如，500ms)和所述结束时间戳之后的设定时长(例如，500ms)的范围内确定是否存在非语音段。

举例说明，如图7所示，假设第一语料信息中包括4个非语音段，每个非语音段的时长为50ms，4个非语音段分别为非语音段1、非语音段2、非语音段3和非语音段4，所述第一语料信息中还包括3个语音段，分别为语音段1、语音段2和语音段3，语音段和非语音段的位置关系如图7所示，根据所述非语音段对语音段进行划分，例如，语音段1之前为非语音段1，语音段1之后为非语音段2，假设，非语音段1的时长为50ms，非语音段1的中心点为A，非语音段2的时长为50ms，非语音段2的中心点为B，则所述中心点A为一个第二语料信息的起始时间，所述中心点B为该第二语料信息的结束时间，以此类推，不对其他第二语料信息的起始时间和结束时间进行赘述。

在一个或多个实施例中，响应于所述开始时间戳和所述结束时间戳的范围内不存在所述非语音段，丢弃所述第一语料信息以及对应的第一文本信息。

在一个或多个实施例中，响应于所述开始时间戳和所述结束时间戳的范围内不存在所述非语音段，将第一语料信息的开始时间戳和结束时间戳分别作为第二语料信息的开始间和结束时间，在后续进行第二语料信息打分时，过滤掉上述第二语料信息。

步骤S604、将所述第二语料信息对应的文本信息确定为第二文本信息。

在一个或多个实施例中，根据所述第二语料信息的起始时间和结束时间，在所述第一文本信息中，确定所述第二语料信息对应的文本信息的起始时间和结束时间，进而将其确定为第二文本信息。

在一个或多个实施例中，将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置，其中，所述第三位置和所述第四位置可以在相同的存储设备，也可以在不同的存储设备，本发明实施例对其不做限定。

在一个具体的实施例中，步骤S203中根据预先训练的打分模型对所述第二语料信息进行打分，其中，所述预先序列的打分模型可以为XGboost模型，所述XGboost模型的训练流程如图8所示，具体包括如下步骤：

步骤S800、获取人工标注数据集。

具体的，人工标注的数据集中包括训练语料，以及对所述训练语料标注的打分。

步骤S801、通过所述人工标注数据集训练所述XGboost模型。

具体的，采用所述步骤S801中训练好的所述XGboost模型对所述第二语料信息进行打分。

在一个或多个实施例中，确定所述第二语料信息的打分后，判断打分得到分值与设定阈值之间的关系，响应于打分分值小于所述设定阈值，说明所述第二语料信息的质量较差，丢弃所述第二语料信息；响应于所述打分分值大于或等于所述设定阈值，说明所述第二语料信息的质量较好，将所述第二语料信息以及对应的第二文本信息进行一步进行保存，例如，将分值大于设定阈值的第二语料信息保存至第五位置，将所述分值大于设定阈值的第二语料信息对应的第二文本信息保存至第六位置，其中，所述第五位置和所述第六位置可以在相同的存储设备，也可以在不同的存储设备，所述第五位置可以与所述第三位置在相同的存储设备，也可以在不同的存储设备，所述第六位置可以与所述第四位置在相同的存储设备，也可以在不同的存储设备，本发明实施例对其不做限定。

在一个或多个实施例中，图9为一个数据流向示意图，用于表示第一语料信息、第一文本信息、第二语料信息以及第二文本信息之间的关系，具体包括：在所述网络数据源901中获取第一语料信息902，然后根据所述第一语料信息902获取所述第一语料信息对应的第一文本信息903；所述第一语料信息901通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息904，在所述第一文本信息903中获取与所述第二语料信息对应的第二文本信息905。

本发明实施例，通过爬取网络数据源，获取第一语料信息；根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息。通过上述方法，可以基于网络数据源自动的确定出高质量的语料信息和文本信息，减少了人力资源的浪费，提高了获取到的语料信息的质量。

图10是本发明实施例的一种语料获取的装置示意图。如图10所示，本实施例的装置包括第一获取单元1001、第二获取单元1002和确定单元1003。

其中，第一获取单元1001，爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；第二获取单元1002，根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；确定单元1003，将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；所述确定单元1003还用于，根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

进一步地，该装置还包括：转换单元，用于将所述第一语料信息转换为设定的音频格式，并将所述第一文本信息转换为设定的文本格式，并分别将转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置。

通过上述实施例，将第一语料信息转换为设定的音频格式可以提高后续的处理速度。

进一步地，所述转换单元具体用于：

将所述第一文本信息转换为srt格式的第一文本信息；

进一步地，所述确定单元具体用于：

在所述第一位置获取所述第一语料信息；

将所述第二语料信息对应的文本信息确定为第二文本信息。

通过上述实施例，可以在VAD模型的基础上，准确的确定出第二语料信息以及第二文本信息。

进一步地，该装置还包括：存储单元，用于将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置。

进一步地，所述打分模型为XGboost模型。

进一步地，该装置还包括：更新单元，用于根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型；

进一步地，所述更新单元还用于：响应于更新后的所述ASR模型的效果增益为负，则不更新所述ASR模型，重新爬取网络数据源，获取所述第一语料信息。

图11是本发明实施例的电子设备的示意图。图11所示的电子设备为通用语料获取装置，其包括通用的计算机硬件结构，其至少包括处理器1101和存储器1102。处理器1101和存储器1102通过总线1103连接。存储器1102适于存储处理器1101可执行的指令或程序。处理器1101可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器1101通过执行存储器1102所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1103将上述多个组件连接在一起，同时将上述组件连接到显示控制器1104和显示装置以及输入/输出(I/O)装置1105。输入/输出(I/O)装置1105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置1105通过输入/输出(I/O)控制器1106与系统相连。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程语料获取设备的处理器，以产生机器，使得(经由计算机或其它可编程语料获取设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程语料获取设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程语料获取设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料获取的方法，其特征在于，该方法包括：

爬取网络数据源，获取第一语料信息，其中，所述第一语料信息包括音频信息或者视频信息；

根据所述第一语料信息获取所述第一语料信息对应的第一文本信息；

将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息；

根据预先训练的打分模型对所述第二语料信息进行打分，响应于所述第二语料信息的分值大于设定阈值，则保存所述第二语料信息以及所述第二语料对应的第二文本信息，其中，所述分值用于表征语料信息的质量，所述保存的所述第二语料信息以及所述第二文本信息用于更新自动语音识别ASR模型。

2.如权利要求1所述的方法，其特征在于，该方法还包括：

将所述第一语料信息转换为设定的音频格式，并将所述第一文本信息转换为设定的文本格式，并分别将转换后的所述第一语料信息存储至第一位置，将所述转换后的第一文本信息存储至第二位置。

3.如权利要求2所述的方法，其特征在于，所述将所述第一文本信息转换为设定的文本格式，具体包括：

将所述第一文本信息转换为srt格式的第一文本信息；

4.如权利要求3所述的方法，其特征在于，所述将所述第一语料信息通过语音活动检测VAD模型进行切分，确定切分后的至少一个第二语料信息，并在所述第一文本信息中获取与所述第二语料信息对应的第二文本信息，具体包括：

在所述第一位置获取所述第一语料信息；

将所述第二语料信息对应的文本信息确定为第二文本信息。

5.如权利要求4所述的方法，其特征在于，该方法还包括：

将所述第二语料信息存储至第三位置，同时将所述第二文本信息存储至第四位置。

6.如权利要求1所述的方法，其特征在于，所述打分模型为XGboost模型。

7.如权利要求1所述的方法，其特征在于，该方法还包括：

根据所述第二语料信息以及所述第二文本信息更新自动语音识别ASR模型；

8.如权利要求1所述的方法，其特征在于，该方法还包括：

响应于更新后的所述ASR模型的效果增益为负，则不更新所述ASR模型，重新爬取网络数据源，获取所述第一语料信息。

9.一种语料获取的装置，其特征在于，该装置包括：

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8任一项所述的步骤。