CN109858427A

CN109858427A - 一种语料提取方法、装置及终端设备

Info

Publication number: CN109858427A
Application number: CN201910077238.7A
Authority: CN
Inventors: 周发升; 何伟宝; 詹逸; 陈渤; 杨敬慈; 皮樾; 李锦韬
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-07

Abstract

本申请公开了一种语料提取方法、装置及终端设备，所述方法包括：通过采集音视频数据，并获取未包含字幕文本数据的音视频数据的字幕区域语音图像后，将字幕区域语音图像按预设帧数进行截取，获取多个语音图像数据；将多个语音图像数据中的字幕图像转换成多个文本，计算多个文本两两之间的余弦值，并将余弦值达到阈值的文本进行合并；将与字幕图像对应的第一语音数据根据合并后的文本进行切分，得到每个第一文字单元的语料。与现有技术相比，本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

Description

一种语料提取方法、装置及终端设备

技术领域

本申请涉及音视频语音信息检索技术领域，尤其涉及一种语料提取方法、装置及终端设备。

背景技术

在自动语音识别系统中，系统的性能和鲁棒性在很大程度上取决于识别模型建模过程中是否具有足够丰富的语料数据，即语料数据资源库是智能语音技术的关键性基础环节。而语料数据资源库中语料的规模和质量，在很大程度上决定了各种智能语音应用的广度和深度，同时也极大的影响着用户的体验。

现有技术中，通过录音的方式提取语料，从而建立语料数据资源库。但在采用现有技术进行语料提取时，发现由于建立和收集语料的目的是为语音识别系统提供训练库和测试库，因此发音人的选择需覆盖全国不同地区、年龄、性别及文化程度，且需从多个录音环境进行语料提取，确保后续语音识别的匹配度，从而导致语料的提取成本太高。

发明内容

本申请实施例所要解决的技术问题在于，如何减少语料提取的成本。

为解决上述问题，本申请实施例提供一种语料提取方法，适于在计算设备中执行，至少包括如下步骤：

采集视频材料的音视频数据；

将未包含字幕文本数据的所述音视频数据作为第一处理数据，通过边缘检测和灰度差分统计，获取所述第一处理数据的字幕区域语音图像后，根据预设帧数对所述字幕区域语音图像进行截取，获取N个语音图像数据；其中，一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据；N为正整数；

通过OCR技术，将N个所述字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，并将达到预设阈值的余弦值的两个所述文本，判断为属于同一所述字幕图像；其中，M≥N且M为正整数；

将判断属于同一所述字幕图像的多个文本进行合并，获得与N个字幕图像一一对应的N个合并文本后，将所述语音图像数据中与所述字幕图像对应的所述第一语音数据，根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的第一文字语音数据，即每个第一文字单元的语料。

进一步的，还包括：

将包含所述字幕文本数据的所述音视频数据作为第二处理数据，通过正则化技术解析所述字幕文本数据，并根据时间轴对所述第二处理数据的第二语音数据进行切分，获取多个第二文字语音数据后，根据每个所述第二文字语音数据，对所述字幕文本数据的每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

进一步的，所述通过边缘检测和灰度差分统计，获取所述第一处理数据的字幕区语音图像后，根据预设帧数对所述字幕区域语音图像进行截取，获取N个语音图像数据，具体为：

将所述第一处理数据的帧图像进行灰度转换，并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后，通过灰度差分统计对进行所述边缘检测后的所述帧图像的字幕区域进行定位，得到所述字幕区域语音图像后，根据所述预设帧数对所述字幕区域语音图像进行截取。

进一步的，所述通过OCR技术，将N个所述字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，具体为：

通过OCR技术，将N个所述字幕图像转换为M个文本后，将M个文本两两组成对比组后，通过TF-IDF获得所述对比组的多个关键词，并根据所述多个关键词在所述对比组的出现频率，生成组成所述对比组的两个所述文本对应的两个词频向量后，根据所述两个词频向量，获得所述对比组的余弦值。

进一步的，所述将所述语音图像数据中与所述字幕图像对应的所述第一语音数据，根据N个合并文本进行切分，具体为：

将所述第一语音数据通过VAD技术进行处理，并将处理后的所述第一语音数据根据所述N个合并文本进行切分。

进一步的，还提供一种语料提取装置，包括：

数据采集模块，用于采集视频材料的音视频数据；

数据截取模块，用于将未包含字幕文本数据的所述音视频数据作为第一处理数据，通过边缘检测和灰度差分统计，获取所述第一处理数据的字幕区域语音图像后，根据预设帧数对所述字幕区域语音图像进行截取，获取N个语音图像数据；其中，一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据；N为正整数；

数据判断模块，用于通过OCR技术，将N个所述字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，并将达到预设阈值的余弦值的两个所述文本，判断为属于同一所述字幕图像；其中，M≥N且M为正整数；

第一数据匹配模块，用于将判断属于同一所述字幕图像的多个文本进行合并，获得与N个字幕图像一一对应的N个合并文本后，将所述语音图像数据中与所述字幕图像对应的所述第一语音数据，根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的第一文字语音数据，即每个第一文字单元的语料。

进一步的，还包括：

第二数据匹配模块，用于将包含所述字幕文本数据的所述音视频数据作为第二处理数据，通过正则化技术解析所述字幕文本数据，并根据时间轴对所述第二处理数据的第二语音数据进行切分，获取多个第二文字语音数据后，根据每个所述第二文字语音数据，对所述字幕文本数据的每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

进一步的，还提供一种语料提取终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例中任意一项语料提取方法。

实施本申请实施例，具有如下有益效果：

本申请实施例提供的一种语料提取方法、装置及终端设备，所述方法包括：通过采集音视频数据，并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计，获取字幕区域语音图像后，将字幕区域语音图像按预设帧数进行截取，获取多个语音图像数据；将多个语音图像数据中的字幕图像转换成多个文本后，通过计算多个文本两两之间的余弦值，判断两个文本是否属于同一字幕图像，并将属于同一字幕图像的文本进行合并后，将与字幕图像对应的第一语音数据根据合并后的文本进行切分，得到每个第一文字单元的语料。与现有技术相比，本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

附图说明

图1是本申请的一个实施例提供的语料提取方法的流程示意图；

图2是本申请的又一个实施例提供的语料提取方法的流程示意图；

图3是本申请的再一个实施例提供的语料提取方法的流程示意图；

图4是本申请的一个实施例提供的TF-IDF流程图；

图5是本申请的一个实施例提供的语料提取装置的结构示意图；

图6是本申请的另一个实施例提供的语料提取装置的结构示意图；

图7是本申请的一个实施例提供的边缘检测效果图；

图8是本申请的一个实施例提供的字幕区域图像获取效果图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1。

参见图1，是本申请的一个实施例提供的语料提取方法的流程示意图，如图1所示，该任务处理方法包括步骤S11至步骤S14。各步骤具体如下：

步骤S11，采集视频材料的音视频数据。

步骤S12，将未包含字幕文本数据的音视频数据作为第一处理数据，通过边缘检测和灰度差分统计，获取第一处理数据的字幕区域语音图像后，根据预设帧数对字幕区域语音图像进行截取，获取N个语音图像数据。

其中，一个语音图像数据包括一个字幕图像和与字幕图像对应的第一语音数据；N为正整数。

步骤S13，通过OCR技术，将N个字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，并将达到预设阈值的余弦值的两个文本，判断为属于同一字幕图像。

其中，M≥N且M为正整数。

步骤S14，将判断属于同一字幕图像的多个文本进行合并，获得与N个字幕图像一一对应的N个合并文本后，将语音图像数据中与字幕图像对应的第一语音数据，根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的第一文字语音数据，即每个第一文字单元的语料。

对于步骤S11，具体的，选取要处理的视频材料的音视频数据，并将所述音视频数据按是否包含字幕文本数据进行划分。

对于步骤S12，具体的，将为包含字幕文本数据的音视频数据作为第一处理数据，并将第一处理数据的帧图像进行灰度转换，并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后，通过灰度差分统计对进行边缘检测后的帧图像的字幕区域进行定位，得到字幕区域语音图像后，根据预设帧数对字幕区域语音图像进行截取，获取N个语音图像数据。

由于字幕区域的边缘特征较为明显，字幕出现的位置较为固定，且同一段字幕通常会在同一位置停留较长时间，除此之外，字幕颜色往往和周围背景色有着较大的差异。因此，在本实施例中，将第一处理数据的帧图像加载到RGB彩色图像空间进行灰度处理，转换成灰度图像，具体转换公式为：

Y(x,y)＝0.229×R(x,y)+0.587×G(x,y)+0.114×B(x,y)

其中，Y(x,y)为像素点(z,y)的灰度值，R(x,y)、G(x,y)和B(x,y)为(z,y)位置像素RGB颜色的红、绿、蓝分量。

在本实施例中，将转换后的灰度图像通过索贝尔算子进行边缘检测，具体为：

假设灰度图像为I，在水平方向上将I与一个奇数大小的内核Gx进行卷积。比如，当内核大小为3时,Gx的计算结果为:

完成水平方向上的卷积计算后，在垂直方向上将I与一个奇数大小的内核G_y进行卷积。比如，当内核大小为3时,G_y的计算结果为:

根据I在水平方向和垂直方向上的卷积，得出I上每一点的近似梯度:

本实施例的具体处理结果可如图7所示。

将通过边缘检测后的图像通过灰度差分统计对帧图像的字幕区域进行定位，获取字幕区域语音图像，具体为：

其中，E(x)表示视频材料中相邻两个帧图像的像素灰度差的绝对值累加之和，f(x,y)，f(x,y+1)分别为相应像素点的灰度值。

本实施例的具体处理结果可如图8所示。

在本实施例中，获取字幕区域语音图像后，逐7帧对该字幕区域语音图像进行截取，获取多个语音图像数据。每个语音图像数据包含一个字幕图像和与字幕图像对应的第一语音数据。

对于步骤S13，具体的，通过OCR技术，将N个字幕图像转换为M个文本后，将M个文本两两组成对比组后，通过TF-IDF获得对比组的多个关键词，并根据多个关键词在对比组的出现频率，生成组成对比组的两个文本对应的两个词频向量后，根据两个词频向量，获得对比组的余弦值，并将达到预设阈值的余弦值的两个文本，判断为属于同一字幕图像。

在本实施例中，如图4所示，通过OCR技术产生多种文本后，通过TF-IDF获取字幕文本中的关键词，具体为：

TF-IDF＝TF_i,j×IDF_i

其中，TF_i,j表示获取文本中某一文字单元t_i的重要性，可表示为n_i,j为该文字单元在对应文本d_j中出现的次数，分母则表示在对应文本d_j中所有文字单元出现的次数之和。

其中，|D|为语料库中的文件总数，|j:t_i∈d_j|表示包含词语t_i的文件数目(即n_i,j≠0的文件数目)。如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|j:t_i∈d_j|。

需要说明的是，在本实施例中，可以采用Simase LSTM替换TF-IDF进行关键词的获取。

在本实施例中，通过上述TF-IDF算法，获取字幕文本中的关键词后，根据关键词在对比组出现的频率，生成对比组中两个文本对应的两个词频向量，其余弦相似性θ由点积和向量长度给出，具体为：

在本实施例中，当两个词频向量的余弦值cos(θ)达到预设阈值0.67时，判断两个词频向量对应的两个文本由同一字幕图像转换而成。

需要说明的是，预设阈值可以为0.65-0.7之间任意一个数值，用于保证两个文本的相似度判断结果。

对于步骤S14，具体的，将多个文本进行合并，得到与N个字幕图像一一对应的N个合并文本后，将与字幕图像对应的第一语音数据通过VAD技术进行处理，并将处理后的第一语音数据根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的语料。

在本实施例中，利用VAD技术去除第一语音数据中声音信号流里长时间的静音期，从而大大减小语音识别等过程中要处理的数据量。

本申请实施例提供一种语料提取方法，通过采集音视频数据，并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计，获取字幕区域语音图像后，将字幕区域语音图像按预设帧数进行截取，获取多个语音图像数据；将多个语音图像数据中的字幕图像转换成多个文本后，通过计算多个文本两两之间的余弦值，判断两个文本是否属于同一字幕图像，并将属于同一字幕图像的文本进行合并后，将与字幕图像对应的第一语音数据根据合并后的文本进行切分，得到每个第一文字单元的语料。与现有技术相比，本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

请参阅图2-3。

参见图2，是本申请的又一个实施例提供的一种语料提取方法的流程示意图，除图1所示步骤外，还包括：

步骤S15，将包含字幕文本数据的音视频数据作为第二处理数据，通过正则化技术解析字幕文本数据，并根据时间轴对第二处理数据的第二语音数据进行切分，获取多个第二文字语音数据后，根据每个第二文字语音数据，对字幕文本数据的每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

在本实施例中，当采集的音视频数据包含字幕文本数据，则直接利用正则化技术解析字幕文件，获取多个第二文字单元，并利用时间轴切分第二语音数据，再通过VAD技术对第二语音数据进行处理后，利用处理后的第二语音数据对每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

本申请实施例提供一种语料提取方法，通过采集音视频数据，并根据是否存在字幕文件，将音视频数据分为无字幕文件的第一处理数据和有字幕文件第二处理数据；按预设帧数截取第一处理数据的字幕区域语音图像，并将字幕区域语音图像的字幕图像转换为多个文本后，通过计算多个文本两两之间的余弦值，判断两个文本是否属于同一字幕图像；将属于同一字幕图像的文本进行合并，并将与字幕图像对饮的第一语音数据，根据合并后的文本进行切分，得到每个第一文字单元的语料；将第二处理数据利用正则化技术解析字幕文件，获取多个第二文字单元后，利用时间轴来解析第二语音数据；将第二语音数据对每个第二文字单元进行标注，获取每个第二文字单元的语料。与现有技术相比，本发明采用了通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

除此之外，还可以通过字幕文本方便快捷地获取文字的语料，进一步减少了语料提取的成本。

请参阅图5。

参见图5，是本申请的一个实施例提供的语料提取装置的结构示意图，包括：

数据采集模块101，用于采集视频材料的音视频数据。

在本实施例中，数据采集模块101具体用于，选取要处理的视频材料的音视频数据，并将所述音视频数据按是否包含字幕文本数据进行划分。

数据截取模块102，用于将未包含字幕文本数据的音视频数据作为第一处理数据，通过边缘检测和灰度差分统计，获取第一处理数据的字幕区域语音图像后，根据预设帧数对字幕区域语音图像进行截取，获取N个语音图像数据。

在本实施例中，数据截取模块102具体用于，将为包含字幕文本数据的音视频数据作为第一处理数据，并将第一处理数据的帧图像进行灰度转换，并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后，通过灰度差分统计对进行边缘检测后的帧图像的字幕区域进行定位，得到字幕区域语音图像后，根据预设帧数对字幕区域语音图像进行截取，获取N个语音图像数据。

数据判断模块103，用于通过OCR技术，将N个字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，并将达到预设阈值的余弦值的两个文本，判断为属于同一字幕图像。

其中，M≥N且M为正整数。

在本实施例中，数据判断模块103具体用于通过OCR技术，将N个字幕图像转换为M个文本后，将M个文本两两组成对比组后，通过TF-IDF获得对比组的多个关键词，并根据多个关键词在对比组的出现频率，生成组成对比组的两个文本对应的两个词频向量后，根据两个词频向量，获得对比组的余弦值，并将达到预设阈值的余弦值的两个文本，判断为属于同一字幕图像。

第一数据匹配模块104，用于将判断属于同一字幕图像的多个文本进行合并，获得与N个字幕图像一一对应的N个合并文本后，将语音图像数据中与字幕图像对应的第一语音数据，根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的第一文字语音数据，即每个第一文字单元的语料。

在本实施例中，第一数据匹配模块104具体用于，将多个文本进行合并，得到与N个字幕图像一一对应的N个合并文本后，将与字幕图像对应的第一语音数据通过VAD技术进行处理，并将处理后的第一语音数据根据N个合并文本进行切分，获得N个合并文本中每个第一文字单元的语料。

本申请实施例提供一种语料提取方法及装置，所述方法包括：通过采集音视频数据，并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计，获取字幕区域语音图像后，将字幕区域语音图像按预设帧数进行截取，获取多个语音图像数据；将多个语音图像数据中的字幕图像转换成多个文本后，通过计算多个文本两两之间的余弦值，判断两个文本是否属于同一字幕图像，并将属于同一字幕图像的文本进行合并后，将与字幕图像对应的第一语音数据根据合并后的文本进行切分，得到每个第一文字单元的语料。与现有技术相比，本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

请参阅图6。

参见图6，是本申请的有一个实施例提供的语料提取装置的结构示意图，除图5所示结构外，还包括：

第二数据匹配模块105，用于将包含字幕文本数据的音视频数据作为第二处理数据，通过正则化技术解析字幕文本数据，并根据时间轴对第二处理数据的第二语音数据进行切分，获取多个第二文字语音数据后，根据每个第二文字语音数据，对字幕文本数据的每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

在本实施例中，第二数据匹配模块105具体用于，当采集的音视频数据包含字幕文本数据，则直接利用正则化技术解析字幕文件，获取多个第二文字单元，并利用时间轴切分第二语音数据，再通过VAD技术对第二语音数据进行处理后，利用处理后的第二语音数据对每个第二文字单元一一进行标注，获取每个第二文字单元的语料。

本申请实施例提供一种语料提取方法及装置，所述方法包括：通过采集音视频数据，并根据是否存在字幕文件，将音视频数据分为无字幕文件的第一处理数据和有字幕文件第二处理数据；按预设帧数截取第一处理数据的字幕区域语音图像，并将字幕区域语音图像的字幕图像转换为多个文本后，通过计算多个文本两两之间的余弦值，判断两个文本是否属于同一字幕图像；将属于同一字幕图像的文本进行合并，并将与字幕图像对饮的第一语音数据，根据合并后的文本进行切分，得到每个第一文字单元的语料；将第二处理数据利用正则化技术解析字幕文件，获取多个第二文字单元后，利用时间轴来解析第二语音数据；将第二语音数据对每个第二文字单元进行标注，获取每个第二文字单元的语料。与现有技术相比，本发明采用了通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配，从而提取语料的方法，克服了需通过多个录音环境进行语料提取的问题，进而达到了减少语料提取的成本的目的。

除此之外，还可以通过字幕文本方便快捷地获取文字的语料，进一步减少了语料提取的成本

本申请的又一实施例还提供了一种运动控制系统的可配置终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例所述的语料提取方法。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种语料提取方法，其特征在于，至少包括如下步骤：

采集视频材料的音视频数据；

2.根据权利要求1所述的语料提取方法，其特征在于，还包括：

3.根据权利要求1所述的语料提取方法，其特征在于，所述通过边缘检测和灰度差分统计，获取所述第一处理数据的字幕区语音图像后，根据预设帧数对所述字幕区域语音图像进行截取，获取N个语音图像数据，具体为：

4.根据权利要求1所述的语料提取方法，其特征在于，所述通过OCR技术，将N个所述字幕图像转换为M个文本后，计算M个文本两两之间的余弦值，具体为：

5.根据权利要求1所述的语料提取方法，其特征在于，所述将所述语音图像数据中与所述字幕图像对应的所述第一语音数据，根据N个合并文本进行切分，具体为：

6.一种语料提取装置，其特征在于，包括：

数据采集模块，用于采集视频材料的音视频数据；

7.根据权利要求6所述的语料提取装置，其特征在于，还包括：

8.一种语料提取终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任意一项语料提取方法。