CN116468054A

CN116468054A - 基于ocr技术辅助构建藏汉音译数据集的方法及系统

Info

Publication number: CN116468054A
Application number: CN202310466088.5A
Authority: CN
Inventors: 徐晓娜; 谭晶; 赵悦
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-21
Anticipated expiration: 2043-04-26
Also published as: CN116468054B

Abstract

本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统，应用于数据处理技术领域：提取视频文件源，对带有中文字幕的藏语视频进行分离，得到长音频文件和视频文件；对长音频文件进行切分、数据清洗、重采样、降噪操作，得到音频数据；视频文件通过OCR技术识别字幕，生成中文文本初文件，对中文文本初文件进行数据清洗，并输入藏文字幕，得到文本数据；利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进，结合藏语自然口语语音的基本特点，选用有自然口语表达效果的电视访谈节目作为采集来源，整理制作了用于藏汉语音翻译研究的平行语料，为端到端藏汉语音翻译研究提供了一定的数据支撑。

Description

基于OCR技术辅助构建藏汉音译数据集的方法及系统

技术领域

本发明涉及数据处理技术领域，更具体的说是涉及基于OCR技术辅助构建藏汉音译数据集的方法及系统。

背景技术

语言上的交流障碍一直是阻碍各少数民族地区发展的重要原因之一，语音翻译技术则是打破各民族交流语言壁障的一项关键技术。训练一个性能良好的语音翻译模型往往需要一定规模和质量的语音语料库，但由于语音翻译研究起步较晚，面临着缺乏可公开获取的高质量的语音语料库问题，因此探索构建语音语料库的高效方法，满足语音翻译中神经网络模型的训练需求显得十分重要。

数据集一直是人工智能发展的重要基础，与已有的语音识别、机器翻译等相关技术公开数据集体量相比，目前语音到语音(S2S)和语音到文本(S2T)的语音翻译技术研究都面临着严重的数据稀缺问题，尤其是小语种相关低资源语音翻译数据集。目前所公开的语音翻译(ST)数据集中，其语言大多采集于英汉、英法、英西等欧洲语言且时长规模相对较小，如CoVoST、CVSS、Must-C等，且对于小语种和方言的数据支持很少，尤其是国内语音翻译相关数据集几乎是空白。小语种语音数据难以构建的原因主要是语料收集难、标注成本高等问题。目前，藏语领域的语音研究主要从物理声学和语言学观点出发，根据藏语的自身特征开展。相比于英语等应用人群较多的语言，藏语语音研究起步较晚，我国国内藏语语音相关研究最早可追溯至本世纪初,滞后于英汉语音识别。经过二十多年的发展,相关研究人员在藏语语音识别、语音合成方面都取得了一定的研究成果，如藏语孤立词语音识别系统研究、藏语非特定人连续语音识别研究等。但藏语公开的可用于研究的语音数据集依旧不足，研究人员在语音翻译的研究发展上受到了一定程度的限制。因此，构建适用于藏汉语音翻译的语音语料库，对藏语语音处理的研究发展和应用有着重大意义，也是目前亟需解决的难题之一。

当前业界主流的构建语音翻译数据集的方法，一方面是利用现有公开的语音识别或语音合成数据集并结合机器翻译实现，或者通过人工录制来构建语音翻译的平行语料数据集。此外，目前已有的藏语数据集大多是基于说话人朗读语音的语料库，这类数据集的优点是构建效率高，语料质量高，但是由于朗读者角色单一，在朗读过程中语调比较规律，与自然交流的场景下有所不同，导致了基于此类语料训练下的模型在真实口语环境下的效果有所偏差。

发明内容

有鉴于此，本发明提供了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统，以解决背景技术中藏汉音译过程中语音数据集不足的问题。

为了实现上述目的，本发明提供如下技术方案：

一方面，基于OCR技术辅助构建藏汉音译数据集的方法，具体步骤如下：

提取视频文件源，所述视频文件源为带有中文字幕的藏语视频；

对到所述带有中文字幕的藏语视频进行分离，得到长音频文件和视频文件；

对所述长音频文件进行切分、数据清洗、重采样、降噪操作，得到音频数据；

所述视频文件通过OCR技术识别字幕，生成中文文本初文件，对所述文本初文件进行数据清洗，并输入藏文字幕，得到文本数据；

利用所述音频数据和所述文本数据构建藏汉音译数据集。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的方法中，生成所述文本数据具体步骤如下：

分离后的视频文件通过调用中文OCR识别接口进行字幕识别，处理得到记录每句话开始和结束时间戳的中文翻译文本数据表；

对所述中文翻译文本数据表进行人工检查过滤，修正在OCR识别的过程中错误识别的语句，并去除未识别出的空白文本语句，用于音频切分的语音翻译文本数据表，即文本数据。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的方法中，生成所述音频数据的具体步骤如下：

切分长音频，在获取长音频文件后校对时间戳；

通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式：节目拼音缩写-句子索引；

手动删除首尾音频段及始末时间戳相差超过30s的短音频；

通过编写脚本，利用SoX工具批量对音频进行重采样处理，统一处理为固定频率单声道音频；

采用音频处理软件进行降噪。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的方法中，切分长音频的步骤中，切分后每段音频都在其时间戳基础上前后增加固定数毫秒。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的方法中，重采样步骤中，音频采样率为16kHz。

另一方面，基于OCR技术辅助构建藏汉音译数据集的系统，包括：

获取模块，提取视频文件源，所述视频文件源为带有中文字幕的藏语视频；

分离模块，对到所述带有中文字幕的藏语视频进行分离，得到长音频文件和视频文件；

音频处理模块，对所述长音频文件进行切分、数据清洗、重采样、降噪操作，得到音频数据；

文本处理模块，所述视频文件通过OCR技术识别字幕，生成文本初文件，对所述文本初文件进行数据清洗，并输入藏文字幕，得到文本数据；

构建模块，利用所述音频数据和所述文本数据构建藏汉音译数据集。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的系统中，文本处理模块包括：

字幕识别单元，分离后的视频文件通过调用中文OCR识别接口进行字幕识别，处理得到记录每句话开始和结束时间戳的中文翻译文本数据表；

文本清洗单元，对所述中文翻译文本数据表进行人工检查过滤，修正在OCR识别的过程中错误识别的语句，并去除未识别出的空白文本语句，用于音频切分的语音翻译文本数据表，即文本数据。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的系统中，音频处理模块包括：

时间戳校对单元，切分长音频，在获取长音频文件后校对时间戳；

音频切分单元，通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式：节目拼音缩写-句子索引；

音频清洗单元，手动删除首尾音频段及始末时间戳相差超过30s的短音频；

重采样单元，通过编写脚本，利用SoX工具批量对音频进行重采样处理，统一处理为固定频率单声道音频；

批量降噪单元，采用音频处理软件进行降噪。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的系统中，音频处理单元还包括延时单元，切分后每段音频都在其时间戳基础上前后增加固定数毫秒。

优选的，在上述的基于OCR技术辅助构建藏汉音译数据集的系统中，重采样单元的音频采样率为16kHz。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了基于OCR技术辅助构建藏汉音译数据集的方法及系统，在常见的语音语料库构建方法的基础上，对传统的采用麦克风录制音频采集数据方式加以改进，选用有自然口语表达效果的电视访谈节目作为采集来源，整理制作了用于藏汉语音翻译研究的平行语料，为端到端藏汉语音翻译研究提供了一定的数据支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例公开了一种基于OCR技术辅助构建藏汉音译数据集的方法，如图1所示，具体步骤如下：

利用所述音频数据和所述文本数据构建藏汉音译数据集。

需要了解的是：藏语发音过程是通过声带按照音节拼读规则振动产生声音的过程。在藏语表达过程中，其声音音素携带了语音信号的大量信息。根据各地区之间的不同发音特点主要可以分为以下三类：卫藏方言(拉萨、日喀则)、康巴方言(德格、昌都)、安多方言(青海藏区)。三类方言在发音上的具体差异如下：

1、安多方言没有声调、复元音、长元音，而卫藏和康巴方言有该特征，且安多方言复辅音比较丰富。

2、卫藏方言没有送气清擦音、清化鼻音、浊塞擦音和浊塞音，而安多和康巴方言则具有，且卫藏方言具有单辅音和复辅音；康巴方言和安多方言很少有舌面擦音c和ch,但卫藏方言中有。

3、藏语拉萨话在发音上声母发音不含浊音和塞音，这与汉语的发音不同。复辅音声母出现较少，有真性复合和鼻化元音，声调起伏波动不大，发音也较为平稳。

端到端S2T语音翻译的数据样本通常包括三部分，分别是源语言音频、源语言文本和目标语言文本。本实施例中的藏汉语音翻译数据集是由藏语语音、藏语文本和对应的中文文本组成。首先，通过爬取采集网络上的藏语试听资源获取数据，得到相关藏语音频数据。然后，通过中文OCR技术进行识别字幕得到对应音频的文本数据，视频中带有的汉藏字幕往往是由专业人员翻译而成的，质量较高，并且藏汉字幕已经经过校对对齐，降低了构建难度，能够满足构建高质量语料库的需求。本数据集所采集的语音数据的说话人均为藏区老师和学者，采集环境为电台专业录影棚麦克风录制，因此语音质量相比其他采集渠道更高。由于各个地区的藏语发音有所差异，为了保证数据集的质量，本实施例综合上述筛选条件选取了康巴和卫藏两个地区汉藏双语电视节目作为数据源进行采集和分类。该数据可为研究藏汉双语语音翻译提供数据基础，同时可以根据其不同的语音发音特点、停顿特点、韵律节奏特点将其作为多语言类语音识别、语音合成、多说话人识别等其他藏语语音研究的数据基础。

为了进一步优化上述技术方案，生成所述文本数据具体步骤如下：

分离后的视频文件通过调用中文OCR识别接口进行字幕识别，处理得到记录每句话开始和结束时间戳的中文翻译文本数据表，如下表1所示；

由于OCR识别技术精确度有限，对于有些字幕的识别结果可能并不正确，或者对于部分识别语句缺失。因此将对文本数据表进行人工检查过滤，修正在OCR识别的过程中错误识别的语句并去除未识别出的空白文本语句，从而提高文本的质量。

表1

为了进一步优化上述技术方案，生成所述音频数据的具体步骤如下：

第一步，切分长音频，我们在获取长音频后，根据过滤处理后得到的语音翻译文本数据表中的开始时间戳和结束时间戳。首先我们通过音频处理软件根据说话人说话停顿特点校对时间戳。然后，通过我们编写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式：节目拼音缩写-句子索引。在切分的过程中为了保证片段说话具有连续性，因此对于每段音频都在其时间戳基础上前后增加了500毫秒。

进一步，校对时间戳是在文本清洗阶段同步进行的，步骤详解如下：

OCR识别语句后写入带有起始时间戳的文本数据表中；

对文本数据表进行人工检查过滤，修正在自动OCR识别字幕的过程中错误识别的字词并去除未识别出的空白文本语句及其时间戳的行数据，此时的数据表已清除了相关识别错误/未识别的语句信息，在此之后生成获得了可用于音频切分的语音翻译文本数据表；

利用python脚本，根据语音翻译文本数据表中的起始时间戳对音频数据进行切分。

第二步，过滤切分好的音频文件。由于节目前后及中间会穿插部分纯音乐，这部分音频无法有效的训练，因此不能作为数据集中的数据放入。在文本预处理中我们已经过滤了空文本音频，因此我们只需手动删除首尾音频段及始末时间戳相差超过30s的短音频即可。

第三步，重采样。由于是爬取的视频进行分离，数据集在不同阶段的音频文件采样率存在区别。在实验中，研究人员常用的音频采样率为16kHz，因此为了减少实验过程中的数据处理难度，这里通过编写脚本，利用SoX工具批量对音频进行重采样处理，统一处理为16kHZ单声道音频。

第四步，音频降噪。本数据集的数据来源取自电视节目，在录制过程中会掺杂背景音乐在其中，尽管在文本处理阶段我们已经进行了空语句过滤，并在音频切分后已经过滤掉纯音乐阶段，但仍会存在部分说话人与背景音乐同时存在的音频，因此进行批量降噪处理，能够提升整体数据集的质量，这里采用音频处理软件进行降噪，防止因为背景音等噪音对实验结果产生偏差。

进一步，对于前步中构建好的语音翻译文本数据表，已经可以用于语音翻译模型的应用。但由于语音翻译数据集数据量偏小，在实际使用过程中实验人员往往会采用多任务训练方式辅助构建语音翻译模型，在训练过程中加入语音识别或机器翻译任务进行同步训练，因此构建三元组数据——源语言音频、源语言文本和目标语言文本，能够使得本数据集可同时用于语音识别、机器翻译等模型任务的训练，提高数据的可用性。因为选用的电视原视频中同时带有藏汉字幕，目前现有技术对于藏文的OCR识别较差，因此为了保证数据集的语料质量，藏文文本选用人工方式进行采集整理。至此对应的藏汉文本数据表构建完成。

本实施例中构建的藏汉语音翻译数据集是选择的采集来源是专业影棚中录制的单人科教访谈节目，减少了多说话人的音频重叠问题。在数据预处理阶段通过人工审核的方式修正OCR文字识别结果。在音频方面删除空白音频，根据处理后的文本进行音频切分。并且将音频进行统一的重采样和降噪，将数据更加规范化，提升数据集质量。

由于构建的语音语料库规模较小，直接采用了普检的方式对其质量进行了检查。主要检查的内容有语音和译文质量、两者是否对应、时间标注和流畅度检测等方面。对有问题的部分进行了取舍、重复加工和标注，经过检测和重复加工后，构建完成语料库。

本数据集数据包括藏语语音音频文件以及对应中文翻译文本，音频文件格式为wav格式，采样率是16kHz，文本文件格式是txt文本。藏汉语音翻译数据集包含样2319条，大小为889.8MB。数据集中包含wav文件夹和doc文件夹两个文件夹，其中wav文件夹存放的是藏语音频文件，按照不同节目主题进行了进一步区分。

本发明的另一实施例公开了基于OCR技术辅助构建藏汉音译数据集的系统，如图2所示，包括：

批量降噪单元，采用音频处理软件进行降噪。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于OCR技术辅助构建藏汉音译数据集的方法，其特征在于，具体步骤如下：

所述视频文件通过OCR技术识别字幕，生成中文文本初文件，对所述中文文本初文件进行数据清洗，并输入藏文字幕，得到文本数据；

利用所述音频数据和所述文本数据构建藏汉音译数据集。

2.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法，其特征在于，生成所述文本数据具体步骤如下：

3.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法，其特征在于，生成所述音频数据的具体步骤如下：

切分长音频，在获取长音频文件后校对时间戳；

手动删除首尾音频段及始末时间戳相差超过30s的短音频；

采用音频处理软件进行降噪。

4.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法，其特征在于，切分长音频的步骤中，切分后每段音频都在其时间戳基础上前后增加固定数毫秒。

5.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法，其特征在于，重采样步骤中，音频采样率为16kHz。

6.基于OCR技术辅助构建藏汉音译数据集的系统，其特征在于，包括：

文本处理模块，所述视频文件通过OCR技术识别字幕，生成中文文本初文件，对所述文本初文件进行数据清洗，并输入藏文字幕，得到文本数据；

7.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统，其特征在于，文本处理模块包括：

8.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统，其特征在于，音频处理模块包括：

批量降噪单元，采用音频处理软件进行降噪。

9.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统，其特征在于，音频处理单元还包括延时单元，切分后每段音频都在其时间戳基础上前后增加固定数毫秒。

10.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统，其特征在于，重采样单元的音频采样率为16kHz。