CN116468054A - 基于ocr技术辅助构建藏汉音译数据集的方法及系统 - Google Patents
基于ocr技术辅助构建藏汉音译数据集的方法及系统 Download PDFInfo
- Publication number
- CN116468054A CN116468054A CN202310466088.5A CN202310466088A CN116468054A CN 116468054 A CN116468054 A CN 116468054A CN 202310466088 A CN202310466088 A CN 202310466088A CN 116468054 A CN116468054 A CN 116468054A
- Authority
- CN
- China
- Prior art keywords
- audio
- tibetan
- data
- chinese
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010276 construction Methods 0.000 title claims description 26
- 238000013519 translation Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000012952 Resampling Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。
Description
技术领域
本发明涉及数据处理技术领域,更具体的说是涉及基于OCR技术辅助构建藏汉音译数据集的方法及系统。
背景技术
语言上的交流障碍一直是阻碍各少数民族地区发展的重要原因之一,语音翻译技术则是打破各民族交流语言壁障的一项关键技术。训练一个性能良好的语音翻译模型往往需要一定规模和质量的语音语料库,但由于语音翻译研究起步较晚,面临着缺乏可公开获取的高质量的语音语料库问题,因此探索构建语音语料库的高效方法,满足语音翻译中神经网络模型的训练需求显得十分重要。
数据集一直是人工智能发展的重要基础,与已有的语音识别、机器翻译等相关技术公开数据集体量相比,目前语音到语音(S2S)和语音到文本(S2T)的语音翻译技术研究都面临着严重的数据稀缺问题,尤其是小语种相关低资源语音翻译数据集。目前所公开的语音翻译(ST)数据集中,其语言大多采集于英汉、英法、英西等欧洲语言且时长规模相对较小,如CoVoST、CVSS、Must-C等,且对于小语种和方言的数据支持很少,尤其是国内语音翻译相关数据集几乎是空白。小语种语音数据难以构建的原因主要是语料收集难、标注成本高等问题。目前,藏语领域的语音研究主要从物理声学和语言学观点出发,根据藏语的自身特征开展。相比于英语等应用人群较多的语言,藏语语音研究起步较晚,我国国内藏语语音相关研究最早可追溯至本世纪初,滞后于英汉语音识别。经过二十多年的发展,相关研究人员在藏语语音识别、语音合成方面都取得了一定的研究成果,如藏语孤立词语音识别系统研究、藏语非特定人连续语音识别研究等。但藏语公开的可用于研究的语音数据集依旧不足,研究人员在语音翻译的研究发展上受到了一定程度的限制。因此,构建适用于藏汉语音翻译的语音语料库,对藏语语音处理的研究发展和应用有着重大意义,也是目前亟需解决的难题之一。
当前业界主流的构建语音翻译数据集的方法,一方面是利用现有公开的语音识别或语音合成数据集并结合机器翻译实现,或者通过人工录制来构建语音翻译的平行语料数据集。此外,目前已有的藏语数据集大多是基于说话人朗读语音的语料库,这类数据集的优点是构建效率高,语料质量高,但是由于朗读者角色单一,在朗读过程中语调比较规律,与自然交流的场景下有所不同,导致了基于此类语料训练下的模型在真实口语环境下的效果有所偏差。
发明内容
有鉴于此,本发明提供了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,以解决背景技术中藏汉音译过程中语音数据集不足的问题。
为了实现上述目的,本发明提供如下技术方案:
一方面,基于OCR技术辅助构建藏汉音译数据集的方法,具体步骤如下:
提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
利用所述音频数据和所述文本数据构建藏汉音译数据集。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的方法中,生成所述文本数据具体步骤如下:
分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的方法中,生成所述音频数据的具体步骤如下:
切分长音频,在获取长音频文件后校对时间戳;
通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
手动删除首尾音频段及始末时间戳相差超过30s的短音频;
通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
采用音频处理软件进行降噪。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的方法中,切分长音频的步骤中,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的方法中,重采样步骤中,音频采样率为16kHz。
另一方面,基于OCR技术辅助构建藏汉音译数据集的系统,包括:
获取模块,提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
分离模块,对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
音频处理模块,对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
文本处理模块,所述视频文件通过OCR技术识别字幕,生成文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
构建模块,利用所述音频数据和所述文本数据构建藏汉音译数据集。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,文本处理模块包括:
字幕识别单元,分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
文本清洗单元,对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,音频处理模块包括:
时间戳校对单元,切分长音频,在获取长音频文件后校对时间戳;
音频切分单元,通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
音频清洗单元,手动删除首尾音频段及始末时间戳相差超过30s的短音频;
重采样单元,通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
批量降噪单元,采用音频处理软件进行降噪。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,音频处理单元还包括延时单元,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,重采样单元的音频采样率为16kHz。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了基于OCR技术辅助构建藏汉音译数据集的方法及系统,在常见的语音语料库构建方法的基础上,对传统的采用麦克风录制音频采集数据方式加以改进,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例公开了一种基于OCR技术辅助构建藏汉音译数据集的方法,如图1所示,具体步骤如下:
提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
利用所述音频数据和所述文本数据构建藏汉音译数据集。
需要了解的是:藏语发音过程是通过声带按照音节拼读规则振动产生声音的过程。在藏语表达过程中,其声音音素携带了语音信号的大量信息。根据各地区之间的不同发音特点主要可以分为以下三类:卫藏方言(拉萨、日喀则)、康巴方言(德格、昌都)、安多方言(青海藏区)。三类方言在发音上的具体差异如下:
1、安多方言没有声调、复元音、长元音,而卫藏和康巴方言有该特征,且安多方言复辅音比较丰富。
2、卫藏方言没有送气清擦音、清化鼻音、浊塞擦音和浊塞音,而安多和康巴方言则具有,且卫藏方言具有单辅音和复辅音;康巴方言和安多方言很少有舌面擦音c和ch,但卫藏方言中有。
3、藏语拉萨话在发音上声母发音不含浊音和塞音,这与汉语的发音不同。复辅音声母出现较少,有真性复合和鼻化元音,声调起伏波动不大,发音也较为平稳。
端到端S2T语音翻译的数据样本通常包括三部分,分别是源语言音频、源语言文本和目标语言文本。本实施例中的藏汉语音翻译数据集是由藏语语音、藏语文本和对应的中文文本组成。首先,通过爬取采集网络上的藏语试听资源获取数据,得到相关藏语音频数据。然后,通过中文OCR技术进行识别字幕得到对应音频的文本数据,视频中带有的汉藏字幕往往是由专业人员翻译而成的,质量较高,并且藏汉字幕已经经过校对对齐,降低了构建难度,能够满足构建高质量语料库的需求。本数据集所采集的语音数据的说话人均为藏区老师和学者,采集环境为电台专业录影棚麦克风录制,因此语音质量相比其他采集渠道更高。由于各个地区的藏语发音有所差异,为了保证数据集的质量,本实施例综合上述筛选条件选取了康巴和卫藏两个地区汉藏双语电视节目作为数据源进行采集和分类。该数据可为研究藏汉双语语音翻译提供数据基础,同时可以根据其不同的语音发音特点、停顿特点、韵律节奏特点将其作为多语言类语音识别、语音合成、多说话人识别等其他藏语语音研究的数据基础。
为了进一步优化上述技术方案,生成所述文本数据具体步骤如下:
分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表,如下表1所示;
对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
由于OCR识别技术精确度有限,对于有些字幕的识别结果可能并不正确,或者对于部分识别语句缺失。因此将对文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句并去除未识别出的空白文本语句,从而提高文本的质量。
表1
为了进一步优化上述技术方案,生成所述音频数据的具体步骤如下:
第一步,切分长音频,我们在获取长音频后,根据过滤处理后得到的语音翻译文本数据表中的开始时间戳和结束时间戳。首先我们通过音频处理软件根据说话人说话停顿特点校对时间戳。然后,通过我们编写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引。在切分的过程中为了保证片段说话具有连续性,因此对于每段音频都在其时间戳基础上前后增加了500毫秒。
进一步,校对时间戳是在文本清洗阶段同步进行的,步骤详解如下:
OCR识别语句后写入带有起始时间戳的文本数据表中;
对文本数据表进行人工检查过滤,修正在自动OCR识别字幕的过程中错误识别的字词并去除未识别出的空白文本语句及其时间戳的行数据,此时的数据表已清除了相关识别错误/未识别的语句信息,在此之后生成获得了可用于音频切分的语音翻译文本数据表;
利用python脚本,根据语音翻译文本数据表中的起始时间戳对音频数据进行切分。
第二步,过滤切分好的音频文件。由于节目前后及中间会穿插部分纯音乐,这部分音频无法有效的训练,因此不能作为数据集中的数据放入。在文本预处理中我们已经过滤了空文本音频,因此我们只需手动删除首尾音频段及始末时间戳相差超过30s的短音频即可。
第三步,重采样。由于是爬取的视频进行分离,数据集在不同阶段的音频文件采样率存在区别。在实验中,研究人员常用的音频采样率为16kHz,因此为了减少实验过程中的数据处理难度,这里通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为16kHZ单声道音频。
第四步,音频降噪。本数据集的数据来源取自电视节目,在录制过程中会掺杂背景音乐在其中,尽管在文本处理阶段我们已经进行了空语句过滤,并在音频切分后已经过滤掉纯音乐阶段,但仍会存在部分说话人与背景音乐同时存在的音频,因此进行批量降噪处理,能够提升整体数据集的质量,这里采用音频处理软件进行降噪,防止因为背景音等噪音对实验结果产生偏差。
进一步,对于前步中构建好的语音翻译文本数据表,已经可以用于语音翻译模型的应用。但由于语音翻译数据集数据量偏小,在实际使用过程中实验人员往往会采用多任务训练方式辅助构建语音翻译模型,在训练过程中加入语音识别或机器翻译任务进行同步训练,因此构建三元组数据——源语言音频、源语言文本和目标语言文本,能够使得本数据集可同时用于语音识别、机器翻译等模型任务的训练,提高数据的可用性。因为选用的电视原视频中同时带有藏汉字幕,目前现有技术对于藏文的OCR识别较差,因此为了保证数据集的语料质量,藏文文本选用人工方式进行采集整理。至此对应的藏汉文本数据表构建完成。
本实施例中构建的藏汉语音翻译数据集是选择的采集来源是专业影棚中录制的单人科教访谈节目,减少了多说话人的音频重叠问题。在数据预处理阶段通过人工审核的方式修正OCR文字识别结果。在音频方面删除空白音频,根据处理后的文本进行音频切分。并且将音频进行统一的重采样和降噪,将数据更加规范化,提升数据集质量。
由于构建的语音语料库规模较小,直接采用了普检的方式对其质量进行了检查。主要检查的内容有语音和译文质量、两者是否对应、时间标注和流畅度检测等方面。对有问题的部分进行了取舍、重复加工和标注,经过检测和重复加工后,构建完成语料库。
本数据集数据包括藏语语音音频文件以及对应中文翻译文本,音频文件格式为wav格式,采样率是16kHz,文本文件格式是txt文本。藏汉语音翻译数据集包含样2319条,大小为889.8MB。数据集中包含wav文件夹和doc文件夹两个文件夹,其中wav文件夹存放的是藏语音频文件,按照不同节目主题进行了进一步区分。
本发明的另一实施例公开了基于OCR技术辅助构建藏汉音译数据集的系统,如图2所示,包括:
获取模块,提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
分离模块,对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
音频处理模块,对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
文本处理模块,所述视频文件通过OCR技术识别字幕,生成文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
构建模块,利用所述音频数据和所述文本数据构建藏汉音译数据集。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,文本处理模块包括:
字幕识别单元,分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
文本清洗单元,对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,音频处理模块包括:
时间戳校对单元,切分长音频,在获取长音频文件后校对时间戳;
音频切分单元,通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
音频清洗单元,手动删除首尾音频段及始末时间戳相差超过30s的短音频;
重采样单元,通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
批量降噪单元,采用音频处理软件进行降噪。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,音频处理单元还包括延时单元,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
优选的,在上述的基于OCR技术辅助构建藏汉音译数据集的系统中,重采样单元的音频采样率为16kHz。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,具体步骤如下:
提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
利用所述音频数据和所述文本数据构建藏汉音译数据集。
2.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,生成所述文本数据具体步骤如下:
分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
3.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,生成所述音频数据的具体步骤如下:
切分长音频,在获取长音频文件后校对时间戳;
通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
手动删除首尾音频段及始末时间戳相差超过30s的短音频;
通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
采用音频处理软件进行降噪。
4.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,切分长音频的步骤中,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
5.根据权利要求1所述的基于OCR技术辅助构建藏汉音译数据集的方法,其特征在于,重采样步骤中,音频采样率为16kHz。
6.基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,包括:
获取模块,提取视频文件源,所述视频文件源为带有中文字幕的藏语视频;
分离模块,对到所述带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;
音频处理模块,对所述长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;
文本处理模块,所述视频文件通过OCR技术识别字幕,生成中文文本初文件,对所述文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;
构建模块,利用所述音频数据和所述文本数据构建藏汉音译数据集。
7.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,文本处理模块包括:
字幕识别单元,分离后的视频文件通过调用中文OCR识别接口进行字幕识别,处理得到记录每句话开始和结束时间戳的中文翻译文本数据表;
文本清洗单元,对所述中文翻译文本数据表进行人工检查过滤,修正在OCR识别的过程中错误识别的语句,并去除未识别出的空白文本语句,用于音频切分的语音翻译文本数据表,即文本数据。
8.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,音频处理模块包括:
时间戳校对单元,切分长音频,在获取长音频文件后校对时间戳;
音频切分单元,通过写好的python脚本将长音频文件按照校对后的时间戳切分为以句子为单位的短音频并统一命名格式:节目拼音缩写-句子索引;
音频清洗单元,手动删除首尾音频段及始末时间戳相差超过30s的短音频;
重采样单元,通过编写脚本,利用SoX工具批量对音频进行重采样处理,统一处理为固定频率单声道音频;
批量降噪单元,采用音频处理软件进行降噪。
9.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,音频处理单元还包括延时单元,切分后每段音频都在其时间戳基础上前后增加固定数毫秒。
10.根据权利要求6所述的基于OCR技术辅助构建藏汉音译数据集的系统,其特征在于,重采样单元的音频采样率为16kHz。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466088.5A CN116468054B (zh) | 2023-04-26 | 2023-04-26 | 基于ocr技术辅助构建藏汉音译数据集的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310466088.5A CN116468054B (zh) | 2023-04-26 | 2023-04-26 | 基于ocr技术辅助构建藏汉音译数据集的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116468054A true CN116468054A (zh) | 2023-07-21 |
CN116468054B CN116468054B (zh) | 2023-11-07 |
Family
ID=87178711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310466088.5A Active CN116468054B (zh) | 2023-04-26 | 2023-04-26 | 基于ocr技术辅助构建藏汉音译数据集的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468054B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
CN109036387A (zh) * | 2018-07-16 | 2018-12-18 | 中央民族大学 | 视频语音识别方法及系统 |
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
CN110110336A (zh) * | 2019-05-05 | 2019-08-09 | 西北民族大学 | 一种面向藏汉机器翻译的藏语句法语料库的构建方法 |
CN110210299A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 语音训练数据生成方法、装置、设备及可读存储介质 |
KR102041618B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법 |
CN113343675A (zh) * | 2021-06-30 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种字幕生成方法、装置和用于生成字幕的装置 |
US20220237379A1 (en) * | 2019-05-20 | 2022-07-28 | Samsung Electronics Co., Ltd. | Text reconstruction system and method thereof |
CN114996506A (zh) * | 2022-05-24 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 语料生成方法、装置、电子设备和计算机可读存储介质 |
CN115269884A (zh) * | 2021-04-29 | 2022-11-01 | 华为云计算技术有限公司 | 生成视频语料的方法、装置及相关设备 |
CN115910069A (zh) * | 2022-12-06 | 2023-04-04 | 广州中医药大学(广州中医药研究院) | 一种中医视频中英双语字幕自动生成系统 |
-
2023
- 2023-04-26 CN CN202310466088.5A patent/CN116468054B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128450A (zh) * | 2016-08-31 | 2016-11-16 | 西北师范大学 | 一种汉藏双语跨语言语音转换的方法及其系统 |
CN109036387A (zh) * | 2018-07-16 | 2018-12-18 | 中央民族大学 | 视频语音识别方法及系统 |
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
KR102041618B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법 |
CN110210299A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 语音训练数据生成方法、装置、设备及可读存储介质 |
CN110110336A (zh) * | 2019-05-05 | 2019-08-09 | 西北民族大学 | 一种面向藏汉机器翻译的藏语句法语料库的构建方法 |
US20220237379A1 (en) * | 2019-05-20 | 2022-07-28 | Samsung Electronics Co., Ltd. | Text reconstruction system and method thereof |
CN115269884A (zh) * | 2021-04-29 | 2022-11-01 | 华为云计算技术有限公司 | 生成视频语料的方法、装置及相关设备 |
CN113343675A (zh) * | 2021-06-30 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种字幕生成方法、装置和用于生成字幕的装置 |
CN114996506A (zh) * | 2022-05-24 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 语料生成方法、装置、电子设备和计算机可读存储介质 |
CN115910069A (zh) * | 2022-12-06 | 2023-04-04 | 广州中医药大学(广州中医药研究院) | 一种中医视频中英双语字幕自动生成系统 |
Non-Patent Citations (2)
Title |
---|
巩元文: "融合唇语的跨模态语音识别方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 136 - 21 * |
李要嫱: "基于主动学习的藏语语音识别在在线教育中的应用", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》, pages 084 - 1747 * |
Also Published As
Publication number | Publication date |
---|---|
CN116468054B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
CN108364632B (zh) | 一种具备情感的中文文本人声合成方法 | |
CN105245917A (zh) | 一种多媒体语音字幕生成的系统和方法 | |
JP2009047920A (ja) | ユーザと音声により対話する装置および方法 | |
Boeffard et al. | Towards Fully Automatic Annotation of Audio Books for TTS. | |
CN110740275B (zh) | 一种非线性编辑系统 | |
Ghyselen et al. | Clearing the transcription hurdle in dialect corpus building: The corpus of southern Dutch dialects as case study | |
Michaud et al. | Towards the automatic processing of Yongning Na (Sino-Tibetan): developing a'light'acoustic model of the target language and testing'heavyweight'models from five national languages | |
Coto-Solano et al. | Development of natural language processing tools for Cook Islands Māori | |
US20150293902A1 (en) | Method for automated text processing and computer device for implementing said method | |
Lin et al. | Hierarchical prosody modeling for Mandarin spontaneous speech | |
CN116468054B (zh) | 基于ocr技术辅助构建藏汉音译数据集的方法及系统 | |
Ibrahim et al. | Development of Hausa dataset a baseline for speech recognition | |
Meister et al. | New speech corpora at IoC | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Bansal et al. | Development of Text and Speech Corpus for Designing the Multilingual Recognition System | |
JP2000305930A (ja) | 言語変換規則作成装置、言語変換装置及びプログラム記録媒体 | |
Serralheiro et al. | Towards a repository of digital talking books. | |
Hussain et al. | Dactor: A data collection tool for the relater project | |
TWI759003B (zh) | 語音辨識模型的訓練方法 | |
Novitasari et al. | Construction of English-French Multimodal Affective Conversational Corpus from TV Dramas | |
CN117219116B (zh) | 现代汉语语音分析方法、系统及存储介质 | |
Yin et al. | A standardization program of speech corpus collection | |
Almiñana | Using large corpora and computational tools to describe prosody: An exciting challenge for the future with some (important) pending problems to solve |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |