CN109858427A - 一种语料提取方法、装置及终端设备 - Google Patents

一种语料提取方法、装置及终端设备 Download PDF

Info

Publication number
CN109858427A
CN109858427A CN201910077238.7A CN201910077238A CN109858427A CN 109858427 A CN109858427 A CN 109858427A CN 201910077238 A CN201910077238 A CN 201910077238A CN 109858427 A CN109858427 A CN 109858427A
Authority
CN
China
Prior art keywords
data
text
image
corpus
subtitling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910077238.7A
Other languages
English (en)
Inventor
周发升
何伟宝
詹逸
陈渤
杨敬慈
皮樾
李锦韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201910077238.7A priority Critical patent/CN109858427A/zh
Publication of CN109858427A publication Critical patent/CN109858427A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种语料提取方法、装置及终端设备,所述方法包括:通过采集音视频数据,并获取未包含字幕文本数据的音视频数据的字幕区域语音图像后,将字幕区域语音图像按预设帧数进行截取,获取多个语音图像数据;将多个语音图像数据中的字幕图像转换成多个文本,计算多个文本两两之间的余弦值,并将余弦值达到阈值的文本进行合并;将与字幕图像对应的第一语音数据根据合并后的文本进行切分,得到每个第一文字单元的语料。与现有技术相比,本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。

Description

一种语料提取方法、装置及终端设备
技术领域
本申请涉及音视频语音信息检索技术领域,尤其涉及一种语料提取方法、装置及终端设备。
背景技术
在自动语音识别系统中,系统的性能和鲁棒性在很大程度上取决于识别模型建模过程中是否具有足够丰富的语料数据,即语料数据资源库是智能语音技术的关键性基础环节。而语料数据资源库中语料的规模和质量,在很大程度上决定了各种智能语音应用的广度和深度,同时也极大的影响着用户的体验。
现有技术中,通过录音的方式提取语料,从而建立语料数据资源库。但在采用现有技术进行语料提取时,发现由于建立和收集语料的目的是为语音识别系统提供训练库和测试库,因此发音人的选择需覆盖全国不同地区、年龄、性别及文化程度,且需从多个录音环境进行语料提取,确保后续语音识别的匹配度,从而导致语料的提取成本太高。
发明内容
本申请实施例所要解决的技术问题在于,如何减少语料提取的成本。
为解决上述问题,本申请实施例提供一种语料提取方法,适于在计算设备中执行,至少包括如下步骤:
采集视频材料的音视频数据;
将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
进一步的,还包括:
将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
进一步的,所述通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据,具体为:
将所述第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行所述边缘检测后的所述帧图像的字幕区域进行定位,得到所述字幕区域语音图像后,根据所述预设帧数对所述字幕区域语音图像进行截取。
进一步的,所述通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,具体为:
通过OCR技术,将N个所述字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得所述对比组的多个关键词,并根据所述多个关键词在所述对比组的出现频率,生成组成所述对比组的两个所述文本对应的两个词频向量后,根据所述两个词频向量,获得所述对比组的余弦值。
进一步的,所述将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,具体为:
将所述第一语音数据通过VAD技术进行处理,并将处理后的所述第一语音数据根据所述N个合并文本进行切分。
进一步的,还提供一种语料提取装置,包括:
数据采集模块,用于采集视频材料的音视频数据;
数据截取模块,用于将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
数据判断模块,用于通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
第一数据匹配模块,用于将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
进一步的,还包括:
第二数据匹配模块,用于将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
进一步的,还提供一种语料提取终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任意一项语料提取方法。
实施本申请实施例,具有如下有益效果:
本申请实施例提供的一种语料提取方法、装置及终端设备,所述方法包括:通过采集音视频数据,并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计,获取字幕区域语音图像后,将字幕区域语音图像按预设帧数进行截取,获取多个语音图像数据;将多个语音图像数据中的字幕图像转换成多个文本后,通过计算多个文本两两之间的余弦值,判断两个文本是否属于同一字幕图像,并将属于同一字幕图像的文本进行合并后,将与字幕图像对应的第一语音数据根据合并后的文本进行切分,得到每个第一文字单元的语料。与现有技术相比,本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。
附图说明
图1是本申请的一个实施例提供的语料提取方法的流程示意图;
图2是本申请的又一个实施例提供的语料提取方法的流程示意图;
图3是本申请的再一个实施例提供的语料提取方法的流程示意图;
图4是本申请的一个实施例提供的TF-IDF流程图;
图5是本申请的一个实施例提供的语料提取装置的结构示意图;
图6是本申请的另一个实施例提供的语料提取装置的结构示意图;
图7是本申请的一个实施例提供的边缘检测效果图;
图8是本申请的一个实施例提供的字幕区域图像获取效果图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1。
参见图1,是本申请的一个实施例提供的语料提取方法的流程示意图,如图1所示,该任务处理方法包括步骤S11至步骤S14。各步骤具体如下:
步骤S11,采集视频材料的音视频数据。
步骤S12,将未包含字幕文本数据的音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取第一处理数据的字幕区域语音图像后,根据预设帧数对字幕区域语音图像进行截取,获取N个语音图像数据。
其中,一个语音图像数据包括一个字幕图像和与字幕图像对应的第一语音数据;N为正整数。
步骤S13,通过OCR技术,将N个字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个文本,判断为属于同一字幕图像。
其中,M≥N且M为正整数。
步骤S14,将判断属于同一字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将语音图像数据中与字幕图像对应的第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
对于步骤S11,具体的,选取要处理的视频材料的音视频数据,并将所述音视频数据按是否包含字幕文本数据进行划分。
对于步骤S12,具体的,将为包含字幕文本数据的音视频数据作为第一处理数据,并将第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行边缘检测后的帧图像的字幕区域进行定位,得到字幕区域语音图像后,根据预设帧数对字幕区域语音图像进行截取,获取N个语音图像数据。
由于字幕区域的边缘特征较为明显,字幕出现的位置较为固定,且同一段字幕通常会在同一位置停留较长时间,除此之外,字幕颜色往往和周围背景色有着较大的差异。因此,在本实施例中,将第一处理数据的帧图像加载到RGB彩色图像空间进行灰度处理,转换成灰度图像,具体转换公式为:
Y(x,y)=0.229×R(x,y)+0.587×G(x,y)+0.114×B(x,y)
其中,Y(x,y)为像素点(z,y)的灰度值,R(x,y)、G(x,y)和B(x,y)为(z,y)位置像素RGB颜色的红、绿、蓝分量。
在本实施例中,将转换后的灰度图像通过索贝尔算子进行边缘检测,具体为:
假设灰度图像为I,在水平方向上将I与一个奇数大小的内核Gx进行卷积。比如,当内核大小为3时,Gx的计算结果为:
完成水平方向上的卷积计算后,在垂直方向上将I与一个奇数大小的内核G_y进行卷积。比如,当内核大小为3时,G_y的计算结果为:
根据I在水平方向和垂直方向上的卷积,得出I上每一点的近似梯度:
本实施例的具体处理结果可如图7所示。
将通过边缘检测后的图像通过灰度差分统计对帧图像的字幕区域进行定位,获取字幕区域语音图像,具体为:
其中,E(x)表示视频材料中相邻两个帧图像的像素灰度差的绝对值累加之和,f(x,y),f(x,y+1)分别为相应像素点的灰度值。
本实施例的具体处理结果可如图8所示。
在本实施例中,获取字幕区域语音图像后,逐7帧对该字幕区域语音图像进行截取,获取多个语音图像数据。每个语音图像数据包含一个字幕图像和与字幕图像对应的第一语音数据。
对于步骤S13,具体的,通过OCR技术,将N个字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得对比组的多个关键词,并根据多个关键词在对比组的出现频率,生成组成对比组的两个文本对应的两个词频向量后,根据两个词频向量,获得对比组的余弦值,并将达到预设阈值的余弦值的两个文本,判断为属于同一字幕图像。
在本实施例中,如图4所示,通过OCR技术产生多种文本后,通过TF-IDF获取字幕文本中的关键词,具体为:
TF-IDF=TFi,j×IDFi
其中,TFi,j表示获取文本中某一文字单元ti的重要性,可表示为ni,j为该文字单元在对应文本dj中出现的次数,分母则表示在对应文本dj中所有文字单元出现的次数之和。
其中,|D|为语料库中的文件总数,|j:ti∈dj|表示包含词语ti的文件数目(即ni,j≠0的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+|j:ti∈dj|。
需要说明的是,在本实施例中,可以采用Simase LSTM替换TF-IDF进行关键词的获取。
在本实施例中,通过上述TF-IDF算法,获取字幕文本中的关键词后,根据关键词在对比组出现的频率,生成对比组中两个文本对应的两个词频向量,其余弦相似性θ由点积和向量长度给出,具体为:
在本实施例中,当两个词频向量的余弦值cos(θ)达到预设阈值0.67时,判断两个词频向量对应的两个文本由同一字幕图像转换而成。
需要说明的是,预设阈值可以为0.65-0.7之间任意一个数值,用于保证两个文本的相似度判断结果。
对于步骤S14,具体的,将多个文本进行合并,得到与N个字幕图像一一对应的N个合并文本后,将与字幕图像对应的第一语音数据通过VAD技术进行处理,并将处理后的第一语音数据根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的语料。
在本实施例中,利用VAD技术去除第一语音数据中声音信号流里长时间的静音期,从而大大减小语音识别等过程中要处理的数据量。
本申请实施例提供一种语料提取方法,通过采集音视频数据,并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计,获取字幕区域语音图像后,将字幕区域语音图像按预设帧数进行截取,获取多个语音图像数据;将多个语音图像数据中的字幕图像转换成多个文本后,通过计算多个文本两两之间的余弦值,判断两个文本是否属于同一字幕图像,并将属于同一字幕图像的文本进行合并后,将与字幕图像对应的第一语音数据根据合并后的文本进行切分,得到每个第一文字单元的语料。与现有技术相比,本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。
请参阅图2-3。
参见图2,是本申请的又一个实施例提供的一种语料提取方法的流程示意图,除图1所示步骤外,还包括:
步骤S15,将包含字幕文本数据的音视频数据作为第二处理数据,通过正则化技术解析字幕文本数据,并根据时间轴对第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个第二文字语音数据,对字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
在本实施例中,当采集的音视频数据包含字幕文本数据,则直接利用正则化技术解析字幕文件,获取多个第二文字单元,并利用时间轴切分第二语音数据,再通过VAD技术对第二语音数据进行处理后,利用处理后的第二语音数据对每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
本申请实施例提供一种语料提取方法,通过采集音视频数据,并根据是否存在字幕文件,将音视频数据分为无字幕文件的第一处理数据和有字幕文件第二处理数据;按预设帧数截取第一处理数据的字幕区域语音图像,并将字幕区域语音图像的字幕图像转换为多个文本后,通过计算多个文本两两之间的余弦值,判断两个文本是否属于同一字幕图像;将属于同一字幕图像的文本进行合并,并将与字幕图像对饮的第一语音数据,根据合并后的文本进行切分,得到每个第一文字单元的语料;将第二处理数据利用正则化技术解析字幕文件,获取多个第二文字单元后,利用时间轴来解析第二语音数据;将第二语音数据对每个第二文字单元进行标注,获取每个第二文字单元的语料。与现有技术相比,本发明采用了通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。
除此之外,还可以通过字幕文本方便快捷地获取文字的语料,进一步减少了语料提取的成本。
请参阅图5。
参见图5,是本申请的一个实施例提供的语料提取装置的结构示意图,包括:
数据采集模块101,用于采集视频材料的音视频数据。
在本实施例中,数据采集模块101具体用于,选取要处理的视频材料的音视频数据,并将所述音视频数据按是否包含字幕文本数据进行划分。
数据截取模块102,用于将未包含字幕文本数据的音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取第一处理数据的字幕区域语音图像后,根据预设帧数对字幕区域语音图像进行截取,获取N个语音图像数据。
其中,一个语音图像数据包括一个字幕图像和与字幕图像对应的第一语音数据;N为正整数。
在本实施例中,数据截取模块102具体用于,将为包含字幕文本数据的音视频数据作为第一处理数据,并将第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行边缘检测后的帧图像的字幕区域进行定位,得到字幕区域语音图像后,根据预设帧数对字幕区域语音图像进行截取,获取N个语音图像数据。
数据判断模块103,用于通过OCR技术,将N个字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个文本,判断为属于同一字幕图像。
其中,M≥N且M为正整数。
在本实施例中,数据判断模块103具体用于通过OCR技术,将N个字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得对比组的多个关键词,并根据多个关键词在对比组的出现频率,生成组成对比组的两个文本对应的两个词频向量后,根据两个词频向量,获得对比组的余弦值,并将达到预设阈值的余弦值的两个文本,判断为属于同一字幕图像。
第一数据匹配模块104,用于将判断属于同一字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将语音图像数据中与字幕图像对应的第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
在本实施例中,第一数据匹配模块104具体用于,将多个文本进行合并,得到与N个字幕图像一一对应的N个合并文本后,将与字幕图像对应的第一语音数据通过VAD技术进行处理,并将处理后的第一语音数据根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的语料。
本申请实施例提供一种语料提取方法及装置,所述方法包括:通过采集音视频数据,并将未包含字幕文本数据的音视频数据通过边缘检测和灰度差分统计,获取字幕区域语音图像后,将字幕区域语音图像按预设帧数进行截取,获取多个语音图像数据;将多个语音图像数据中的字幕图像转换成多个文本后,通过计算多个文本两两之间的余弦值,判断两个文本是否属于同一字幕图像,并将属于同一字幕图像的文本进行合并后,将与字幕图像对应的第一语音数据根据合并后的文本进行切分,得到每个第一文字单元的语料。与现有技术相比,本申请通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。
请参阅图6。
参见图6,是本申请的有一个实施例提供的语料提取装置的结构示意图,除图5所示结构外,还包括:
第二数据匹配模块105,用于将包含字幕文本数据的音视频数据作为第二处理数据,通过正则化技术解析字幕文本数据,并根据时间轴对第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个第二文字语音数据,对字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
在本实施例中,第二数据匹配模块105具体用于,当采集的音视频数据包含字幕文本数据,则直接利用正则化技术解析字幕文件,获取多个第二文字单元,并利用时间轴切分第二语音数据,再通过VAD技术对第二语音数据进行处理后,利用处理后的第二语音数据对每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
本申请实施例提供一种语料提取方法及装置,所述方法包括:通过采集音视频数据,并根据是否存在字幕文件,将音视频数据分为无字幕文件的第一处理数据和有字幕文件第二处理数据;按预设帧数截取第一处理数据的字幕区域语音图像,并将字幕区域语音图像的字幕图像转换为多个文本后,通过计算多个文本两两之间的余弦值,判断两个文本是否属于同一字幕图像;将属于同一字幕图像的文本进行合并,并将与字幕图像对饮的第一语音数据,根据合并后的文本进行切分,得到每个第一文字单元的语料;将第二处理数据利用正则化技术解析字幕文件,获取多个第二文字单元后,利用时间轴来解析第二语音数据;将第二语音数据对每个第二文字单元进行标注,获取每个第二文字单元的语料。与现有技术相比,本发明采用了通过将无字幕文件的音视频字幕图像转换为文本文件后与语音数据进行匹配,从而提取语料的方法,克服了需通过多个录音环境进行语料提取的问题,进而达到了减少语料提取的成本的目的。
除此之外,还可以通过字幕文本方便快捷地获取文字的语料,进一步减少了语料提取的成本
本申请的又一实施例还提供了一种运动控制系统的可配置终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例所述的语料提取方法。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (8)

1.一种语料提取方法,其特征在于,至少包括如下步骤:
采集视频材料的音视频数据;
将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
2.根据权利要求1所述的语料提取方法,其特征在于,还包括:
将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
3.根据权利要求1所述的语料提取方法,其特征在于,所述通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据,具体为:
将所述第一处理数据的帧图像进行灰度转换,并通过索贝尔算子对进行灰度转换后的帧图像进行边缘检测后,通过灰度差分统计对进行所述边缘检测后的所述帧图像的字幕区域进行定位,得到所述字幕区域语音图像后,根据所述预设帧数对所述字幕区域语音图像进行截取。
4.根据权利要求1所述的语料提取方法,其特征在于,所述通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,具体为:
通过OCR技术,将N个所述字幕图像转换为M个文本后,将M个文本两两组成对比组后,通过TF-IDF获得所述对比组的多个关键词,并根据所述多个关键词在所述对比组的出现频率,生成组成所述对比组的两个所述文本对应的两个词频向量后,根据所述两个词频向量,获得所述对比组的余弦值。
5.根据权利要求1所述的语料提取方法,其特征在于,所述将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,具体为:
将所述第一语音数据通过VAD技术进行处理,并将处理后的所述第一语音数据根据所述N个合并文本进行切分。
6.一种语料提取装置,其特征在于,包括:
数据采集模块,用于采集视频材料的音视频数据;
数据截取模块,用于将未包含字幕文本数据的所述音视频数据作为第一处理数据,通过边缘检测和灰度差分统计,获取所述第一处理数据的字幕区域语音图像后,根据预设帧数对所述字幕区域语音图像进行截取,获取N个语音图像数据;其中,一个语音图像数据包括一个字幕图像和与所述字幕图像对应的第一语音数据;N为正整数;
数据判断模块,用于通过OCR技术,将N个所述字幕图像转换为M个文本后,计算M个文本两两之间的余弦值,并将达到预设阈值的余弦值的两个所述文本,判断为属于同一所述字幕图像;其中,M≥N且M为正整数;
第一数据匹配模块,用于将判断属于同一所述字幕图像的多个文本进行合并,获得与N个字幕图像一一对应的N个合并文本后,将所述语音图像数据中与所述字幕图像对应的所述第一语音数据,根据N个合并文本进行切分,获得N个合并文本中每个第一文字单元的第一文字语音数据,即每个第一文字单元的语料。
7.根据权利要求6所述的语料提取装置,其特征在于,还包括:
第二数据匹配模块,用于将包含所述字幕文本数据的所述音视频数据作为第二处理数据,通过正则化技术解析所述字幕文本数据,并根据时间轴对所述第二处理数据的第二语音数据进行切分,获取多个第二文字语音数据后,根据每个所述第二文字语音数据,对所述字幕文本数据的每个第二文字单元一一进行标注,获取每个第二文字单元的语料。
8.一种语料提取终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5中任意一项语料提取方法。
CN201910077238.7A 2019-01-24 2019-01-24 一种语料提取方法、装置及终端设备 Pending CN109858427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910077238.7A CN109858427A (zh) 2019-01-24 2019-01-24 一种语料提取方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910077238.7A CN109858427A (zh) 2019-01-24 2019-01-24 一种语料提取方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN109858427A true CN109858427A (zh) 2019-06-07

Family

ID=66896298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910077238.7A Pending CN109858427A (zh) 2019-01-24 2019-01-24 一种语料提取方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN109858427A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730389A (zh) * 2019-12-19 2020-01-24 恒信东方文化股份有限公司 一种视频节目自动生成互动问答的方法及装置
CN111445902A (zh) * 2020-03-27 2020-07-24 北京字节跳动网络技术有限公司 数据收集方法、装置、存储介质及电子设备
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN114495128A (zh) * 2022-04-06 2022-05-13 腾讯科技(深圳)有限公司 字幕信息检测方法、装置、设备以及存储介质
WO2022228235A1 (zh) * 2021-04-29 2022-11-03 华为云计算技术有限公司 生成视频语料的方法、装置及相关设备
CN116468054A (zh) * 2023-04-26 2023-07-21 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序
CN103607635A (zh) * 2013-10-08 2014-02-26 十分(北京)信息科技有限公司 一种字幕识别方法、装置和终端
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
JP2017045027A (ja) * 2015-08-24 2017-03-02 日本放送協会 音声言語コーパス生成装置およびそのプログラム
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115151A (zh) * 2007-07-10 2008-01-30 北京大学 一种视频字幕提取的方法
CN100562074C (zh) * 2007-07-10 2009-11-18 北京大学 一种视频字幕提取的方法
CN101453575A (zh) * 2007-12-05 2009-06-10 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN102262644A (zh) * 2010-05-25 2011-11-30 索尼公司 搜索装置、搜索方法以及程序
CN103607635A (zh) * 2013-10-08 2014-02-26 十分(北京)信息科技有限公司 一种字幕识别方法、装置和终端
CN103761261A (zh) * 2013-12-31 2014-04-30 北京紫冬锐意语音科技有限公司 一种基于语音识别的媒体搜索方法及装置
JP2017045027A (ja) * 2015-08-24 2017-03-02 日本放送協会 音声言語コーパス生成装置およびそのプログラム
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
BRECHT DESPLANQUES 等: "Adaptive speaker diarization of broadcast news based on", 《SCIENCEDIRECT》 *
EKATERINA PRONOZA 等: "A New Corpus of the Russian Social Network", 《SPRINGER NATURE SWITZERLAND AG 2018》 *
PATRICIA SOTELO DIOS 等: "extraction of Indonesian and English Parallel Sentences from Movie Subtitles", 《IEEE》 *
YOONA CHOI 等: "Pansori: ASR Corpus Generation from Open Online Video Contents", 《RESEARCHGATE》 *
刘剑: "多模态口译语料库的建设与应用研究", 《中国外语》 *
张望舒: "电视视频中的文字识别及检索技术的研究", 《中国优秀硕士论文全文数据库(信息科技辑)》 *
李宪武: "数字视频技术在语料库建设者红的实践研究", 《中国现代教育装备》 *
樊重俊 等: "《大数据分析与应用》", 31 January 2016 *
陈树越 等: "基于灰度差分的新闻视频标题字幕探测", 《计算机与数字工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110730389A (zh) * 2019-12-19 2020-01-24 恒信东方文化股份有限公司 一种视频节目自动生成互动问答的方法及装置
CN111445902A (zh) * 2020-03-27 2020-07-24 北京字节跳动网络技术有限公司 数据收集方法、装置、存储介质及电子设备
CN111445902B (zh) * 2020-03-27 2023-05-30 北京字节跳动网络技术有限公司 数据收集方法、装置、存储介质及电子设备
CN112925905A (zh) * 2021-01-28 2021-06-08 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
CN112925905B (zh) * 2021-01-28 2024-02-27 北京达佳互联信息技术有限公司 提取视频字幕的方法、装置、电子设备和存储介质
WO2022228235A1 (zh) * 2021-04-29 2022-11-03 华为云计算技术有限公司 生成视频语料的方法、装置及相关设备
CN114495128A (zh) * 2022-04-06 2022-05-13 腾讯科技(深圳)有限公司 字幕信息检测方法、装置、设备以及存储介质
CN116468054A (zh) * 2023-04-26 2023-07-21 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及系统
CN116468054B (zh) * 2023-04-26 2023-11-07 中央民族大学 基于ocr技术辅助构建藏汉音译数据集的方法及系统

Similar Documents

Publication Publication Date Title
CN109858427A (zh) 一种语料提取方法、装置及终端设备
Harwath et al. Deep multimodal semantic embeddings for speech and images
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
US10304458B1 (en) Systems and methods for transcribing videos using speaker identification
CN108648746A (zh) 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN109218629B (zh) 视频生成方法、存储介质和装置
CN111723791A (zh) 文字纠错方法、装置、设备及存储介质
CN110866958A (zh) 一种文本到图像的方法
CN109993040A (zh) 文本识别方法及装置
US20080095442A1 (en) Detection and Modification of Text in a Image
CN106708949A (zh) 一种视频有害内容识别方法
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN110796140B (zh) 一种字幕检测方法和装置
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
WO2021129466A1 (zh) 检测水印的方法、装置、终端及存储介质
CN113221890A (zh) 一种基于ocr的云手机文字内容监管方法和系统和系统
CN106161873A (zh) 一种视频信息提取推送方法及系统
CN108921032A (zh) 一种新的基于深度学习模型的视频语义提取方法
CN110072140A (zh) 一种视频信息提示方法、装置、设备及存储介质
CN115129934A (zh) 一种多模态视频理解方法
CN112989098B (zh) 一种图像类侵权实体自动化检索方法、装置和电子设备
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN114548274A (zh) 一种基于多模态交互的谣言检测方法及系统
CN111950327A (zh) 口型纠正方法、装置、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607

RJ01 Rejection of invention patent application after publication