CN115831120B - 语料数据采集方法、装置、电子设备及可读存储介质 - Google Patents
语料数据采集方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN115831120B CN115831120B CN202310053890.1A CN202310053890A CN115831120B CN 115831120 B CN115831120 B CN 115831120B CN 202310053890 A CN202310053890 A CN 202310053890A CN 115831120 B CN115831120 B CN 115831120B
- Authority
- CN
- China
- Prior art keywords
- corpus data
- data
- basic
- basic corpus
- built
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000013480 data collection Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语料数据采集方法、装置、电子设备及可读存储介质,所述语料数据采集方法包括:获取基础语料数据;检测所述基础语料数据对应的字幕文件;当未检测到所述基础语料数据对应的字幕文件时,获取所述基础语料数据的内置字幕信息;根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据。本申请提供的语料数据采集方案无需人工参与,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
Description
技术领域
本申请涉及通信领域,具体涉及一种语料数据采集方法、装置、电子设备及可读存储介质。
背景技术
近年来,随着智能音箱和语音助手等的普及,语音识别越来越被大家所接受,这项技术被应用的场景也越来越多,例如:通过语音来控制设备、实现内容搜索成为大家日常生活中很重要的一部分。但目前训练一个能够商用的语音识别系统是比较困难的,因为训练这样的语音识别系统需要大量的标注语料(上万小时),而获取这些语料的成本过于昂贵。
目前常用的获取训练语料的方法是,数据公司招募并组织用户采集数据,采集后的数据需要进行清洗和标注,但这样的流程执行起来有诸多限制,一是需要投入大量的资金;二是由于需要人工参与,采集流程很长,不能保证时效性。
发明内容
针对上述技术问题,本申请提供一种语料数据采集方法、装置、电子设备及可读存储介质,无需人工参与,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
为解决上述技术问题,本申请提供一种语料数据采集方法,包括:
获取基础语料数据;
检测所述基础语料数据对应的字幕文件;
当未检测到所述基础语料数据对应的字幕文件时,获取所述基础语料数据的内置字幕信息;
根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据。
可选的,在本申请的一些实施例中,所述当未检测到所述基础语料数据对应的字幕文件时,获取所述基础语料数据的内置字幕信息,包括:
当未检测到所述基础语料数据对应的字幕文件时,检测所述基础语料数据是否具有内置字幕信息;
当检测到所述基础语料数据具有内置字幕信息时,获取所述基础语料数据的内置字幕信息;
当检测到所述基础语料数据不具有内置字幕信息时,对所述基础语料数据进行语音分割,并基于分割结果输出目标语料数据。
可选的,在本申请的一些实施例中,所述对所述基础语料数据进行语音分割,包括:
获取预设的音频区间以及预设的静音时长阈值;
根据所述音频区间以及静音时长阈值,对所述基础语料数据进行语音分割。
可选的,在本申请的一些实施例中,所述根据所述音频区间以及静音时长阈值,对所述基础语料数据进行语音分割,包括:
基于所述静音时长阈值,对所述基础语料数据进行语音分割,得到至少一个切分音频,所述切分音频位于所述音频区间内。
可选的,在本申请的一些实施例中,所述当未检测到所述基础语料数据对应的字幕文件时,检测所述基础语料数据是否具有内置字幕信息,包括:
确定所述基础语料数据中包含文字的帧数;
检测所述帧数是否大于预设值;
当检测到所述帧数大于预设值时,则遍历所述基础语料数据中的文本框;
基于所述文本框,检测所述基础语料数据是否具有内置字幕信息。
可选的,在本申请的一些实施例中,所述获取基础语料数据,包括:
获取音频数据对应的音频链接以及视频数据对应的视频链接;
根据所述音频链接下载所述音频数据,并将所述音频数据转换为预设采样率的音频数据存入至基础语料数据中;
根据所述视频链接下载所述视频数据,并将所述视频数据转换为预设格式的视频数据存入至基础语料数据中。
可选的,在本申请的一些实施例中,所述根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据,包括:
根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到语音对齐后的语料数据;
识别所述语音对齐后的语料数据的语种信息,得到目标语料数据。
相应的,本申请还提供一种语料数据采集装置,包括:
第一获取模块,用于获取基础语料数据;
检测模块,用于检测所述基础语料数据对应的字幕文件;
第二获取模块,用于当未检测到所述基础语料数据对应的字幕文件时,获取所述基础语料数据的内置字幕信息;
对齐模块,用于根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据。
本申请还提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
如上所述,本申请提供一种语料数据采集方法、装置、电子设备及可读存储介质,在获取基础语料数据后,检测所述基础语料数据对应的字幕文件,当未检测到所述基础语料数据对应的字幕文件时,获取所述基础语料数据的内置字幕信息,最后,根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据。在本申请提供的语料数据采集方案中,可以检测基础语料数据是否具有对应的字幕文件,当基础语料数据不具备字幕文件时,根据其内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,无需人工对语料数据进行清洗和标注,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语料数据采集系统的结构示意图;
图2是本申请实施例提供的语料数据采集方法的流程示意图;
图3是本申请实施例提供的语料数据采集装置的结构示意图
图4是本申请实施例提供的智能终端的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
以下对本申请涉及的实施例进行具体描述,需要说明的是,在本申请中对实施例的描述顺序不作为对实施例优先顺序的限定。
本申请实施例提供一种语料数据采集方法、装置、存储介质及电子设备。具体地,本申请实施例的语料数据采集方法可以由电子设备或服务器执行,其中,该电子设备可以为终端。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC,PersonalComputer)、个人数字助理(Personal Digital Assistant,PDA)等电子设备,终端还可以包括客户端,该客户端可以是媒体播放客户端或即时通信客户端等。
例如,当该语料数据采集方法运行于电子设备时,电子设备可以获取基础语料数据,并检测基础语料数据对应的字幕文件,当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息,最后,根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据。其中电子设备可以通过图形用户界面与用户进行交互。该电子设备将图形用户界面提供给用户的方式可以包括多种,例如,可以渲染显示在电子设备的显示屏上,或者,通过全息投影呈现图形用户界面。例如,电子设备可以包括触控显示屏和处理器,该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
请参阅图1,图1为本申请实施例提供的语料数据采集装置的系统示意图。该系统可以包括至少一个电子设备1000,至少一个服务器或个人电脑2000。用户持有的电子设备1000可以通过网络连接到不同的服务器或个人电脑。电子设备1000可以是具有计算硬件的电子设备,该计算硬件能够支持和执行与多媒体对应的软件产品。另外,电子设备1000还可以具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外,电子设备1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络,比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外,不同的电子设备1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他嵌入式平台或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例提供了一种语料数据采集方法,该方法可以由电子设备或服务器执行。本申请实施例以语料数据采集方法由电子设备执行为例来进行说明。其中,该电子设备包括触控显示屏和处理器,该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。用户通过触控显示屏对图形用户界面进行操作时,该图形用户界面可以通过响应于接收到的操作指令控制电子设备本地的内容,也可以通过响应于接收到的操作指令控制服务器端的内容。例如,用户作用于图形用户界面产生的操作指令包括用于对初始音频数据进行处理的指令,处理器被配置为在接收到用户提供的指令之后启动对应的应用程序。此外,处理器被配置为在触控显示屏上渲染和绘制与应用程序相关联的图形用户界面。触控显示屏是能够感测屏幕上的多个点同时执行的触摸或者滑动操作的多触敏屏幕。用户在使用手指在图形用户界面上执行触控操作,图形用户界面在检测到触控操作时,控制应用的图形用户界面中显示对应的操作。
本申请提供的语料数据采集方案,可以检测基础语料数据是否具有对应的字幕文件,当基础语料数据不具备字幕文件时,根据其内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,无需人工对语料数据进行清洗和标注,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
一种语料数据采集方法,包括:获取基础语料数据;检测基础语料数据对应的字幕文件;当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息;根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据。
请参阅图2,图2为本申请实施例提供的语料数据采集方法的流程示意图。该数语料数据采集方法的具体流程可以如下:
101、获取基础语料数据。
其中,语料数据指的是一定数量和规模的文本资源集合。语料规模可大可小,大至千万,甚至数亿句或更大,小至几百句。。语料根据不同标准可以有很多分类。比如,语料数据可以是单语语料数据,也可以是多语种语料数据。
在本申请中,基础语料数据指的是未经过清洗和标注的语料数据,其可以通过网络的形式进行获取,比如,可以通过统一资源定位系统(uniformresource locator,URL)链接进行获取,即,可选地,在一些实施例中,步骤“获取基础语料数据”,具体可以包括:
(11)获取音频数据对应的音频链接以及视频数据对应的视频链接;
(12)根据音频链接下载所述音频数据,并将音频数据转换为预设采样率的音频数据存入至基础语料数据中;
(13)根据视频链接下载所述视频数据,并将视频数据转换为预设格式的视频数据存入至基础语料数据中。
其中,在本申请中不对步骤(12)和步骤(13)的执行顺序进行限制,即,可以同时执行,也可以先后执行,具体可以根据实际情况进行选择。
例如,具体的,同时执行步骤(12)和步骤(13),即,通过传入的URL链接得到当前网页的源码,使用正则表达式方法获取所需视频的URL和音频的URL,并保存视频的标识、URL、以及音频的标识以及URL等。随后,通过保存的视频的URL以及音频URL下载视频和音频,将所有视频转化成相同格式,如mp4、avi、rmvb等;将所有音频转化成采样率16kHz的音频,可选地,视频和音频的格式可以根据实际需求进行调整,本申请不作限制。
102、检测基础语料数据对应的字幕文件。
例如,具体的,可以通过检测基础语料数据的文件头,进而确定基础语料数据是否具有对应的字幕文件,当检测到基础语料数据具有对应的字幕文件时,则基于该字幕文件对基础语料数据进行语音对齐,从而得到目标语料数据;当未检测到基础语料数据具有对应的字幕文件时,则执行步骤103。
103、当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息。
当未检测到基础语料数据对应的字幕文件时,则获取基础语料数据的内置字幕信息,需要说明的是,并非每个基础语料数据都具有内置字幕信息,因此,可以检测该基础语料数据是否具有内置字幕信息,即,可选地,在一些实施例中,步骤“当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息”,具体可以包括:
(21)当未检测到基础语料数据对应的字幕文件时,检测基础语料数据是否具有内置字幕信息;
(22)当检测到基础语料数据具有内置字幕信息时,获取基础语料数据的内置字幕信息;
(23)当检测到基础语料数据不具有内置字幕信息时,对基础语料数据进行语音分割,并基于分割结果输出目标语料数据。
针对于具有内置字幕信息的基础语料数据而言,可以利用其内置字幕信息对基础语料数据进行语音对其,即,执行步骤104。
需要说明的是,内置字幕信息仅有视频这类具有丰富图像信息的数据才可能具有,因此,可以检测其包含文字的帧数是否大于预设值,并基于此确定视频是否具有内置字幕信息,即,可选地,在一些实施例中,步骤“当未检测到基础语料数据对应的字幕文件时,检测基础语料数据是否具有内置字幕信息”,具体可以包括:
(31)确定基础语料数据中包含文字的帧数;
(32)检测帧数是否大于预设值;
(33)当检测到帧数大于预设值时,则遍历基础语料数据中的文本框;
(34)基于文本框,检测基础语料数据是否具有内置字幕信息。
例如,具体的,初始化一个维度与视频分辨率大小相同的全零矩阵N;定义f为包含文字的帧数,初始化f为零;初始化一个数据保存列表tb,列表tb中保存的文本框记录含以下信息:文本框识别结果s、开始时间t1、结束时间t2、文本框坐标rect和运动矢量mv。通过文本区域检测工具逐帧处理视频中的每帧图像,若识别到文本框,则f累加一。当f大于预设值时,则遍历基础语料数据中的文本框,将文本框中的预设词进行排除,如特定的名词(例如某某卫视)、词语出现时间小于预设时长的词语以及运动矢量大于预设矢量值的词语,具体可以根据实际情况进行设置,在此不作赘述。
进一步的,针对于不具有内置字幕信息的基础语料数据而言,需要对其进行语音分割,并根据语音分割结果输出目标语料数据,例如,可以获取预设音频区间以及预设静音时长阈值,然后,根据静音时长阈值以及音频区间,对基础语料数据进行语音分割,即,可选地,在一些实施例中,步骤“对基础语料数据进行语音分割”,具体可以包括:
(41)获取预设的音频区间以及预设的静音时长阈值;
(42)根据音频区间以及静音时长阈值,对基础语料数据进行语音分割。
例如,具体的,预设静音时长阈值可以包括多个子静音时长阈值,如包括静音时长阈值a1、静音时长阈值a2、...、静音时长阈值an,其中,n为大于2的正整数,然后,根据静音时长阈值a1在基础语料数据中确定切分点,得到多个语料段,紧接着,在多个语料段中,基于静音时长阈值a2对音频时长大于音频区间的语料段再进行切分,最后,将基于静音时长阈值an对音频时长大于音频区间的切分后的语料段再进行切分,从而得到切分音频,即,可选地,步骤“根据音频区间以及静音时长阈值,对基础语料数据进行语音分割”,具体可以包括:基于静音时长阈值,对基础语料数据进行语音分割,得到至少一个切分音频。其中,每个切分音频均位于音频区间内。
104、根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据。
例如,具体的,将内置字幕信息输入到预构建的字级对齐模型中进行运算,输出与初基础语料数据对应的字级对齐结果。其中字级对齐模型可以为预先构建的模型,例如可以是一个预先构建的端到端神经网络模型。在此基础上,还可以进一步通过音素级对齐模型,获取与基础语料数据对应的音素级对齐结果,从而实现字级和音素级的二次对齐,得到目标语料数据
以上完成本申请的语料数据采集流程。
由上可知,本申请提供一种语料数据采集方法,在获取基础语料数据后,检测基础语料数据对应的字幕文件,当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息,最后,根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,在本申请提供的语料数据采集方案中,可以检测基础语料数据是否具有对应的字幕文件,当基础语料数据不具备字幕文件时,根据其内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,无需人工对语料数据进行清洗和标注,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
为便于更好的实施本申请的语料数据采集方法,本申请还提供一种基于上述语料数据采集装置。其中名词的含义与上述语料数据采集方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3,图3为本申请提供的语料数据采集装置的结构示意图,其中该语料数据采集装置可以包括第一获取模块201、检测模块202、第二获取模块203以及对齐模块204,具体可以如下:
第一获取模块201,用于获取基础语料数据。
在本申请中,基础语料数据指的是未经过清洗和标注的语料数据,其可以通过网络的形式进行获取,比如,可以通过统一资源定位系统(uniformresource locator,URL)链接进行获取,即,可选地,在一些实施例中,第一获取模块201具体可以用于:获取音频数据对应的音频链接以及视频数据对应的视频链接;根据音频链接下载所述音频数据,并将音频数据转换为预设采样率的音频数据存入至基础语料数据中;根据视频链接下载所述视频数据,并将视频数据转换为预设格式的视频数据存入至基础语料数据中。
检测模块202,用于检测基础语料数据对应的字幕文件。
第二获取模块203,用于当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息。
需要说明的是,并非每个基础语料数据都具有内置字幕信息,因此,可以检测该基础语料数据是否具有内置字幕信息,即,可选地,在一些实施例中,第二获取模块203具体可以包括:
检测单元,用于当未检测到基础语料数据对应的字幕文件时,检测基础语料数据是否具有内置字幕信息;
获取单元,用于当检测到基础语料数据具有内置字幕信息时,获取基础语料数据的内置字幕信息;
分割单元,用于当检测到基础语料数据不具有内置字幕信息时,对基础语料数据进行语音分割;
输出单元,用于基于分割结果输出目标语料数据。
可选地,在一些实施例中,检测单元具体可以用于:确定基础语料数据中包含文字的帧数;检测帧数是否大于预设值;当检测到帧数大于预设值时,则遍历基础语料数据中的文本框;基于文本框,检测基础语料数据是否具有内置字幕信息。
可选地,在一些实施例中,分割单元具体可以用于:获取预设音频区间以及预设静音时长阈值;根据音频区间以及静音时长阈值,对基础语料数据进行语音分割。
对齐模块204,用于根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据。
以上完成本申请的语料数据采集流程。
由上可知,本申请提供一种语料数据采集装置,第一获取模块201在获取基础语料数据后,检测模块202检测基础语料数据对应的字幕文件,当未检测到基础语料数据对应的字幕文件时,第二获取模块202获取基础语料数据的内置字幕信息,最后,对齐模块204根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,在本申请提供的语料数据采集方案中,可以检测基础语料数据是否具有对应的字幕文件,当基础语料数据不具备字幕文件时,根据其内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,无需人工对语料数据进行清洗和标注,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
本发明实施例还提供一种电子设备500,如图4所示,该电子设备500可以集成上述语料数据采集装置,还可以进一步包括射频(RF,Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi,Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解,图4中示出的电子设备500结构并不构成对电子设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路501可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器508处理;另外,将涉及上行的数据发送给基站。通常,RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,SubscriberIdentity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low NoiseAmplifier)、双工器等。此外,RF电路501还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global Systemof Mobile communication)、通用分组无线服务(GPRS ,GeneralPacketRadio Service)、码分多址(CDMA,Code DivisionMultiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,LongTermEvolution)、电子邮件、短消息服务(SMS,ShortMessaging Service)等。
存储器502可用于存储软件程序以及模块,处理器508通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、目标数据播放功能等)等;存储数据区可存储根据电子设备500的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器508和输入单元503对存储器502的访问。
输入单元503可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元503可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器508,并能接收处理器508发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元503还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器508以确定触摸事件的类型,随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备500还可包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路506、扬声器,传声器可提供用户与电子设备500之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路506接收后转换为音频数据,再将音频数据输出处理器508处理后,经RF电路501以发送给比如另一电子设备500,或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔,以提供外设耳机与电子设备500的通信。
WiFi属于短距离无线传输技术,电子设备500通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块507,但是可以理解的是,其并不属于电子设备500的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器508是电子设备500的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备500的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器508可包括一个或多个处理核心;优选的,处理器508可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器508中。
电子设备500还包括给各个部件供电的电源509(比如电池),优选的,电源可以通过电源管理系统与处理器508逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源数据指示器等任意组件。
尽管未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备500中的处理器508会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器508来运行存储在存储器502中的应用程序,从而实现各种功能:
获取基础语料数据;检测基础语料数据对应的字幕文件;当未检测到基础语料数据对应的字幕文件时,获取基础语料数据的内置字幕信息;根据内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文语料数据采集方法的详细描述,此处不再赘述。
由上可知,本发明实施例的电子设备500可以检测基础语料数据是否具有对应的字幕文件,当基础语料数据不具备字幕文件时,根据其内置字幕信息对基础语料数据进行语音对齐,得到目标语料数据,无需人工对语料数据进行清洗和标注,不仅可以降低语料采集的成本,并且还可以提高语料采集的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其上存储有多条指令,所述指令适于处理器进行加载,以执行上述语料数据采集方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read OnlyMemory)、随机存取记忆体(RAM,Random AccessMemory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种语料数据采集方法中的步骤,因此,可以实现本发明实施例所提供的任一种语料数据采集方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的语料数据采集方法、装置、系统及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种语料数据采集方法,其特征在于,包括:
获取基础语料数据;
检测所述基础语料数据对应的字幕文件;
当未检测到所述基础语料数据对应的字幕文件时,确定所述基础语料数据中包含文字的帧数;
检测所述帧数是否大于预设值;
当检测到所述帧数大于所述预设值时,则遍历所述基础语料数据中的文本框;
基于所述文本框,检测所述基础语料数据是否具有内置字幕信息,
当检测到所述基础语料数据具有所述内置字幕信息时,获取所述基础语料数据的内置字幕信息;
将所述内置字幕信息输入到预构建的字级对齐模型中进行运算,输出与所述基础语料数据对应的字级对齐结果,并根据所述字级对齐结果和音素级对齐模型,获取与所述基础语料数据对应的音素级对齐结果,从而实现字级和音素级的二次对齐,得到目标语料数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
当检测到所述基础语料数据不具有所述内置字幕信息时,对所述基础语料数据进行语音分割,并基于分割结果输出目标语料数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述基础语料数据进行语音分割,包括:
获取预设的音频区间以及预设的静音时长阈值;
根据所述音频区间以及静音时长阈值,对所述基础语料数据进行语音分割。
4.根据权利要求3所述的方法,其特征在于,所述根据所述音频区间以及静音时长阈值,对所述基础语料数据进行语音分割,包括:
基于所述静音时长阈值,对所述基础语料数据进行语音分割,得到至少一个切分音频,所述切分音频位于所述音频区间内。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取基础语料数据,包括:
获取音频数据对应的音频链接以及视频数据对应的视频链接;
根据所述音频链接下载所述音频数据,并将所述音频数据转换为预设采样率的音频数据存入至基础语料数据中;
根据所述视频链接下载所述视频数据,并将所述视频数据转换为预设格式的视频数据存入至所述基础语料数据中。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到目标语料数据,包括:
根据所述内置字幕信息对所述基础语料数据进行语音对齐,得到语音对齐后的语料数据;
识别所述语音对齐后的语料数据的语种信息,得到所述目标语料数据。
7.一种语料数据采集装置,其特征在于,包括:
第一获取模块,用于获取基础语料数据;
检测模块,用于检测所述基础语料数据对应的字幕文件;
第二获取模块,用于当未检测到所述基础语料数据对应的字幕文件时,确定所述基础语料数据中包含文字的帧数;
检测所述帧数是否大于预设值;
当检测到所述帧数大于所述预设值时,则遍历所述基础语料数据中的文本框;
基于所述文本框,检测所述基础语料数据是否具有内置字幕信息,
当检测到所述基础语料数据具有所述内置字幕信息时,获取所述基础语料数据的内置字幕信息;
对齐模块,用于将所述内置字幕信息输入到预构建的字级对齐模型中进行运算,输出与所述基础语料数据对应的字级对齐结果,并根据所述字级对齐结果和音素级对齐模型,获取与所述基础语料数据对应的音素级对齐结果,从而实现字级和音素级的二次对齐,得到目标语料数据。
8.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述语料数据采集方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述语料数据采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310053890.1A CN115831120B (zh) | 2023-02-03 | 2023-02-03 | 语料数据采集方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310053890.1A CN115831120B (zh) | 2023-02-03 | 2023-02-03 | 语料数据采集方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115831120A CN115831120A (zh) | 2023-03-21 |
CN115831120B true CN115831120B (zh) | 2023-06-16 |
Family
ID=85520730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310053890.1A Active CN115831120B (zh) | 2023-02-03 | 2023-02-03 | 语料数据采集方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831120B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2690174A1 (en) * | 2009-01-13 | 2010-07-13 | Crim (Centre De Recherche Informatique De Montreal) | Identifying keyword occurrences in audio data |
US8554559B1 (en) * | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
CN106448685A (zh) * | 2016-10-09 | 2017-02-22 | 北京远鉴科技有限公司 | 一种基于音素信息的声纹认证系统及方法 |
JP2019012095A (ja) * | 2017-06-29 | 2019-01-24 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106878805A (zh) * | 2017-02-06 | 2017-06-20 | 广东小天才科技有限公司 | 一种混合语种字幕文件生成方法及装置 |
CN108600773B (zh) * | 2018-04-25 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN110418208B (zh) * | 2018-11-14 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕确定方法和装置 |
CN112818680B (zh) * | 2020-07-10 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 语料的处理方法、装置、电子设备及计算机可读存储介质 |
CN114495128B (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 字幕信息检测方法、装置、设备以及存储介质 |
CN115497082A (zh) * | 2022-08-31 | 2022-12-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 判断视频中字幕的方法、设备和存储介质 |
-
2023
- 2023-02-03 CN CN202310053890.1A patent/CN115831120B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2690174A1 (en) * | 2009-01-13 | 2010-07-13 | Crim (Centre De Recherche Informatique De Montreal) | Identifying keyword occurrences in audio data |
US8554559B1 (en) * | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
CN106448685A (zh) * | 2016-10-09 | 2017-02-22 | 北京远鉴科技有限公司 | 一种基于音素信息的声纹认证系统及方法 |
JP2019012095A (ja) * | 2017-06-29 | 2019-01-24 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于内容的x-vector文本相关SV研究;陈亚峰;郭武;;数据采集与处理(第05期);第64-71页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115831120A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959274B (zh) | 一种应用程序的翻译方法及服务器 | |
CN105740263B (zh) | 页面显示方法和装置 | |
US20170249934A1 (en) | Electronic device and method for operating the same | |
CN106203235B (zh) | 活体鉴别方法和装置 | |
KR20160124182A (ko) | 연락처들을 그룹화하기 위한 방법 및 장치 | |
CN110278141B (zh) | 一种即时通讯信息的处理方法、装置及存储介质 | |
CN103702297A (zh) | 短信增强方法、装置及系统 | |
CN104281394A (zh) | 智能选词的方法和装置 | |
CN104281568B (zh) | 一种释义显示方法和装置 | |
CN105095161B (zh) | 一种显示富文本信息的方法及装置 | |
CN110300047B (zh) | 一种动画播放方法、装置及存储介质 | |
CN104281610B (zh) | 过滤微博的方法和装置 | |
CN110335629B (zh) | 音频文件的音高识别方法、装置以及存储介质 | |
CN110020338B (zh) | 浏览器、网页打开方法及设备 | |
CN111897916B (zh) | 语音指令识别方法、装置、终端设备及存储介质 | |
CN111027406B (zh) | 图片识别方法、装置、存储介质及电子设备 | |
CN115981798B (zh) | 文件解析方法、装置、计算机设备及可读存储介质 | |
CN116795780A (zh) | 文档格式转换方法、装置、存储介质及电子设备 | |
CN115831120B (zh) | 语料数据采集方法、装置、电子设备及可读存储介质 | |
CN111723783B (zh) | 一种内容识别方法和相关装置 | |
CN109656658B (zh) | 一种编辑对象处理方法、设备及计算机可读存储介质 | |
CN115797921B (zh) | 字幕识别方法、装置、电子设备及可读存储介质 | |
CN109543172B (zh) | 一种编辑对象调控方法、设备及计算机可读存储介质 | |
CN113536100A (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN111353422A (zh) | 信息提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Method, device, electronic device, and readable storage medium for corpus data collection Granted publication date: 20230616 Pledgee: Jiang Wei Pledgor: BEIJING INTENGINE TECHNOLOGY Co.,Ltd. Registration number: Y2024980019734 |