CN111091811A - 语音训练数据的处理方法、装置及存储介质 - Google Patents

语音训练数据的处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111091811A
CN111091811A CN201911157728.4A CN201911157728A CN111091811A CN 111091811 A CN111091811 A CN 111091811A CN 201911157728 A CN201911157728 A CN 201911157728A CN 111091811 A CN111091811 A CN 111091811A
Authority
CN
China
Prior art keywords
video file
training data
file
voice
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911157728.4A
Other languages
English (en)
Other versions
CN111091811B (zh
Inventor
李泽堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201911157728.4A priority Critical patent/CN111091811B/zh
Publication of CN111091811A publication Critical patent/CN111091811A/zh
Application granted granted Critical
Publication of CN111091811B publication Critical patent/CN111091811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开涉及数据处理技术领域,具体涉及一种语音训练数据的处理方法、装置及存储介质,用于解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。所述语音训练数据的处理方法包括:获取视频文件;从所述视频文件中提取出与所述视频文件同步的音频文件;识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。

Description

语音训练数据的处理方法、装置及存储介质
技术领域
本公开涉及数据处理技术领域,特别地涉及一种语音训练数据的处理方法、装置及存储介质。
背景技术
目前,人工智能正如火如荼的发展着,其中语音识别方面的应用也是层出不穷。但是,在使用该技术进行语音识别前,都需要对语音识别模型进行训练,训练语音识别模型需要使用大量的语音片段。
发明内容
本公开提供一种语音训练数据的处理方法、装置及存储介质,以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。
为实现上述目的,本公开实施例的第一方面,提供一种语音训练数据的处理方法,所述方法包括:
获取视频文件;
从所述视频文件中提取出与所述视频文件同步的音频文件;
识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
可选地,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段,包括:
按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像;
根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点,获得带有相同字幕的帧图像在所述视频文件中的时间段。
可选地,获取视频文件,包括:
获取预设视频下载网站;
根据所述预设视频下载网站中的下载地址,下载视频文件。
可选地,从所述视频文件中提取出与所述视频文件同步的音频文件之前,还包括:
确认所述视频文件具有内嵌字幕。
可选地,还包括:
利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型。
可选地,利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型,包括:
将截取后的音频文件投入到待训练语音识别模型中,以使得所述待训练语音识别模型输出识别结果;
比对所述识别结果和截取后的音频文件对应的字幕,当所述识别结果和截取后的音频文件对应的字幕不一致时,修正所述待训练语音识别模型,以获得训练后的语音识别模型。
可选地,还包括:
获取待识别语音文件;
将所述待识别语音文件投入到训练后的语音识别模型,以使得训练后的语音识别模型输出识别结果。
本公开实施例的第二方面,提供一种语音训练数据的处理装置,所述装置包括:
获取模块,被配置为获取视频文件;
提取模块,被配置为从所述视频文件中提取出与所述视频文件同步的音频文件;
识别模块,被配置为识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
截取模块,被配置为根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
本公开实施例的第四方面,提供一种语音训练数据的处理装置,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。
采用上述技术方案,至少能够达到如下技术效果:
本公开通过获取来源丰富的视频文件,从所述视频文件中提取出与所述视频文件同步的音频文件,并通过图像识别技术获得带有相同字幕的帧图像在所述视频文件中的时间段,进而根据所述时间段截取所述音频文件以获得语音训练数据,以极低成本获取大量的语音训练素材,解决了相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图。
图2是本公开一示例性实施例示出的视频文件识别相同字幕的示意图。
图3是本公开一示例性实施例示出的一种语音训练数据的处理装置框图。
图4是本公开一示例性实施例示出的另一种语音训练数据的处理装置框图。
具体实施方式
以下将结合附图及实施例来详细说明本公开的实施方式,借此对本公开如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本公开的保护范围之内。
本公开发明人经研究发现,相关技术中,训练语音识别模型的语音素材基本都是从专业的语音采集公司购买的。语音采集公司采集语音素材的做法大致包括以下步骤:首先,购买专业的语音采集工具;然后,寻找目标人群并商谈劳动报酬,比如18-28岁的女人,或者60-80的男人。因为年龄不同,人的音色和声音的波形是不一样的,所以如果想训练后的模型在投入使用后能全面精准的检测到所有人群的发声,前期训练时使用的语音训练素材必须覆盖各个年龄层次的人,而且对语音素材的需求量非常大,几乎是越多越好,所以这就造成了专业语音素材采集公司的工作非常繁琐,工作量非常大。因此,语音采集公司采集的语音素材价格非常昂贵。
实施例一
图1是本公开一示例性实施例示出的一种语音训练数据的处理方法流程图,以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。如图1所示,该语音训练数据的处理方法包括:
S11,获取视频文件。
S12,从所述视频文件中提取出与所述视频文件同步的音频文件。
S13,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段。
S14,根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
在步骤S11中,所述视频文件可以从存储的视频数据库中获取,也可以是提供一个预设视频下载网站,该预设视频下载网站需要是可靠安全并是正规的网址,比如带有版权的电影视频下载网址、纪录片下载网址或者其它类型视频的下载网址。所述预设视频下载网站中可以带有不同视频文件的下载地址,根据所述预设视频下载网站中的下载地址,下载视频文件。
其中,获取的视频文件是必须是有字幕的视频,否则后续步骤中帧图像的识别是没有意义的。字幕一般分为两种:一种是直接打到视频的每一帧图像上的,叫内嵌字幕,字幕和视频内容融为一体,不分彼此,也无法区分,这也是当前视频文件的主流做法;另一种是单独的外挂字幕文件,播放时需要播放器额外加载该字幕文件,否则播放的图像上没有字幕显示。本公开需要的是具有内嵌字幕的视频文件。
需要说明的是,如果下载到第二种外挂字幕的视频文件或者不带字幕的视频文件,依然可以执行本公开后续的步骤S12,但在执行步骤S13时,由于始终识别不到带有字幕的帧图像,也就不会截取音频文件。
在获取视频文件后,执行步骤S12,从所述视频文件中提取出与所述视频文件同步的音频文件。从视频文件中提取出同步的音频文件的技术已经非常普及,因此,为了说明书的简洁,本公开不做展开说明,只举一个具体例子说明:比如,使用开源技术库ffmpeg从视频文件中提取出同步的音频文件,比如提取命令可以是这样:"ffmpeg-i abc.mp4-f wav-ac 1-ar 16000output.wav”上述命令的意思是:从abc.mp4文件中提取格式为wav,音频通道为1,音频采样率为16000的声音内容到output.wav执行完成后,我们就拥有了该视频对应的完整音频内容。
在提取出与所述视频文件同步的音频文件后,执行步骤S13,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段。利用图像识别技术对视频的每一帧进行识别,按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像;根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点,获得带有相同字幕的帧图像在所述视频文件中的时间段。接着,可以执行步骤S14,根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
举例来讲,同一个字幕出现在连续的60帧图像中,则将根据第1帧图像对应的起始时间点和第60帧图像对应的终止时间点,可以得出视频文件中出现该字幕对应的语音所在的时间片段。接下来,就可以根据起始时间点和终止时间点,截取步骤S12中提取出的同步音频文件,截取后的音频文件片段和对应的字幕就可以作为语音识别模型的语音训练数据。本公开提取出来的音频文件片段的时间颗粒可以精确到毫秒级别,因为视频一般是每秒30帧,本公开是每一帧去识别的,所以可以精确到1/30秒。
可选地,利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型。利用获得的语音训练数据训练语音识别模型,可以包括如下步骤:将截取后的音频文件投入到待训练语音识别模型中,以使得所述待训练语音识别模型输出识别结果;比对所述识别结果和截取后的音频文件对应的字幕,当所述识别结果和截取后的音频文件对应的字幕不一致时,修正所述待训练语音识别模型,以获得训练后的语音识别模型。
在获得训练后的语音识别模型,就可以对待识别语音文件进行识别,通过将所述待识别语音文件投入到训练后的语音识别模型,以使得训练后的语音识别模型输出识别结果。
本公开通过获取来源丰富的视频文件,从所述视频文件中提取出与所述视频文件同步的音频文件,并通过图像识别技术获得带有相同字幕的帧图像在所述视频文件中的时间段,进而根据所述时间段截取所述音频文件以获得语音训练数据,以极低成本获取大量的语音训练素材,解决了相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。
值得说明的是,对于图1所示的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开所必须的。
实施例二
图2是本公开一示例性实施例示出的视频文件识别相同字幕的示意图。为了解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题,以图2为例,对本公开语音训练数据的处理方法进行说明:
首先,输入一个视频文件;然后,剥离出此视频文件对应的整个音频文件作为备用,由于从视频文件中提取同步音频的技术是公知技术,在本实施例中不再展开细讲;接着,再利用图像识别技术对视频文件的每一帧进行识别,如图2所示,识别出“祝你生日快乐”这样的字样,记此时第一次识别出带有“祝你生日快乐”的频帧为A,帧A对应的时间点记为T1;然后,继续往视频文件的后续帧进行识别,直到图像识别为别的字样信息时,将前一帧记为B(当前帧已经不是“祝你生日快乐”,必须倒退一帧),帧B对应的时间点记为T2,那么,从此视频文件对应的音频文件中的T1处开始,提取出时长为T2-T1的音频片段,这个片段对应的就是“祝你生日快乐”的音频内容,这样一个语音素材就提取出来了。如此循环下去,可以将整个视频文件中所有人说过的话都提取出来,这样提取的音频片段就可以作为语音训练的基本素材。
本公开通过获取来源丰富的视频文件,从所述视频文件中提取出与所述视频文件同步的音频文件,并通过图像识别技术获得带有相同字幕的帧图像在所述视频文件中的时间段,进而根据所述时间段截取所述音频文件以获得语音训练数据,以极低成本获取大量的语音训练素材,解决了相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。
实施例三
图3是本公开一示例性实施例示出的一种语音训练数据的处理装置,以解决相关技术中训练语音识别模型所使用的语音素材价格昂贵的技术问题。如图3所示,该语音训练数据的处理装置300包括:
获取模块310,被配置为获取视频文件;
提取模块320,被配置为从所述视频文件中提取出与所述视频文件同步的音频文件;
识别模块330,被配置为识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
截取模块340,被配置为根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
本公开还提供了语音训练数据的处理装置的另一种优选的实施例,在本实施例中,语音训练数据的处理装置包括:处理器,其中,所述处理器用于执行存储在存储器中的以下程序模块:获取模块,被配置为获取视频文件;提取模块,被配置为从所述视频文件中提取出与所述视频文件同步的音频文件;识别模块,被配置为识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;截取模块,被配置为根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例四
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项可选实施例所述的方法步骤。
其中,在所述处理器上运行的计算机程序被执行时所实现的方法可参照本公开语音训练数据的处理方法的具体实施例,此处不再赘述。
所述处理器可以是一种集成电路芯片,具有信息处理能力。所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。
实施例五
本公开还提供一种语音训练数据的处理装置,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一项可选实施例所述的方法步骤。
图4是根据一示例性实施例示出的一种语音训练数据的处理装置400的框图。如图4所示,该装置400可以包括:处理器401,存储器402,多媒体组件403,输入/输出(I/O)接口404,以及通信组件405。
其中,处理器401用于控制该装置400的整体操作,以完成上述的语音训练数据的处理方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该装置400的操作,这些数据例如可以包括用于在该装置400上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该装置400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,装置400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的语音训练数据的处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,例如包括程序指令的存储器402,上述程序指令可由装置400的处理器401执行以完成上述的语音训练数据的处理方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种语音训练数据的处理方法,其特征在于,所述方法包括:
获取视频文件;
从所述视频文件中提取出与所述视频文件同步的音频文件;
识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
2.根据权利要求1所述的方法,其特征在于,识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段,包括:
按照时间顺序识别带有相同字幕的连续帧图像中的起始帧图像和最后一帧图像;
根据所述起始帧图像对应的起始时间点和所述最后一帧图像对应的终止时间点,获得带有相同字幕的帧图像在所述视频文件中的时间段。
3.根据权利要求1所述的方法,其特征在于,获取视频文件,包括:
获取预设视频下载网站;
根据所述预设视频下载网站中的下载地址,下载视频文件。
4.根据权利要求1所述的方法,其特征在于,从所述视频文件中提取出与所述视频文件同步的音频文件之前,还包括:
确认所述视频文件具有内嵌字幕。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型。
6.根据权利要求5所述的方法,其特征在于,利用获得的语音训练数据训练语音识别模型,以获得训练后的语音识别模型,包括:
将截取后的音频文件投入到待训练语音识别模型中,以使得所述待训练语音识别模型输出识别结果;
比对所述识别结果和截取后的音频文件对应的字幕,当所述识别结果和截取后的音频文件对应的字幕不一致时,修正所述待训练语音识别模型,以获得训练后的语音识别模型。
7.根据权利要求5所述的方法,其特征在于,还包括:
获取待识别语音文件;
将所述待识别语音文件投入到训练后的语音识别模型,以使得训练后的语音识别模型输出识别结果。
8.一种语音训练数据的处理装置,其特征在于,所述装置包括:
获取模块,被配置为获取视频文件;
提取模块,被配置为从所述视频文件中提取出与所述视频文件同步的音频文件;
识别模块,被配置为识别所述视频文件中带有字幕的帧图像,以获得带有相同字幕的帧图像在所述视频文件中的时间段;
截取模块,被配置为根据所述时间段截取所述音频文件以获得语音训练数据,所述语音训练数据包括截取后的音频文件和对应的字幕。
9.一种语音训练数据的处理装置,其特征在于,包括:
存储器,其上存储有计算机程序;以及
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN201911157728.4A 2019-11-22 2019-11-22 语音训练数据的处理方法、装置及存储介质 Active CN111091811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911157728.4A CN111091811B (zh) 2019-11-22 2019-11-22 语音训练数据的处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911157728.4A CN111091811B (zh) 2019-11-22 2019-11-22 语音训练数据的处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111091811A true CN111091811A (zh) 2020-05-01
CN111091811B CN111091811B (zh) 2022-04-22

Family

ID=70393478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911157728.4A Active CN111091811B (zh) 2019-11-22 2019-11-22 语音训练数据的处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111091811B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860389A (zh) * 2020-07-27 2020-10-30 北京易真学思教育科技有限公司 数据处理方法、电子设备及计算机可读介质
CN111968647A (zh) * 2020-08-26 2020-11-20 北京字节跳动网络技术有限公司 语音识别方法、装置、介质及电子设备
CN112818680A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 语料的处理方法、装置、电子设备及计算机可读存储介质
CN112992148A (zh) * 2021-03-03 2021-06-18 中国工商银行股份有限公司 视频内的语音识别方法及装置
CN113076932A (zh) * 2021-04-28 2021-07-06 百度在线网络技术(北京)有限公司 训练音频语种识别模型的方法、视频检测方法及其装置
CN114398952A (zh) * 2021-12-14 2022-04-26 北京百度网讯科技有限公司 训练文本生成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1993989A (zh) * 2005-05-26 2007-07-04 索尼株式会社 内容处理设备、处理内容的方法及计算机程序
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
US20160034786A1 (en) * 2014-07-29 2016-02-04 Microsoft Corporation Computerized machine learning of interesting video sections
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN109859298A (zh) * 2019-03-05 2019-06-07 腾讯科技(深圳)有限公司 一种图像处理方法及其装置、设备和存储介质
CN109963092A (zh) * 2017-12-26 2019-07-02 深圳市优必选科技有限公司 一种字幕的处理方法、装置及终端
CN110008378A (zh) * 2019-01-28 2019-07-12 平安科技(深圳)有限公司 基于人工智能的语料收集方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1993989A (zh) * 2005-05-26 2007-07-04 索尼株式会社 内容处理设备、处理内容的方法及计算机程序
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
US20160034786A1 (en) * 2014-07-29 2016-02-04 Microsoft Corporation Computerized machine learning of interesting video sections
CN109963092A (zh) * 2017-12-26 2019-07-02 深圳市优必选科技有限公司 一种字幕的处理方法、装置及终端
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
CN110008378A (zh) * 2019-01-28 2019-07-12 平安科技(深圳)有限公司 基于人工智能的语料收集方法、装置、设备及存储介质
CN109859298A (zh) * 2019-03-05 2019-06-07 腾讯科技(深圳)有限公司 一种图像处理方法及其装置、设备和存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818680A (zh) * 2020-07-10 2021-05-18 腾讯科技(深圳)有限公司 语料的处理方法、装置、电子设备及计算机可读存储介质
CN111860389A (zh) * 2020-07-27 2020-10-30 北京易真学思教育科技有限公司 数据处理方法、电子设备及计算机可读介质
CN111968647A (zh) * 2020-08-26 2020-11-20 北京字节跳动网络技术有限公司 语音识别方法、装置、介质及电子设备
CN111968647B (zh) * 2020-08-26 2021-11-12 北京字节跳动网络技术有限公司 语音识别方法、装置、介质及电子设备
CN112992148A (zh) * 2021-03-03 2021-06-18 中国工商银行股份有限公司 视频内的语音识别方法及装置
CN113076932A (zh) * 2021-04-28 2021-07-06 百度在线网络技术(北京)有限公司 训练音频语种识别模型的方法、视频检测方法及其装置
CN113076932B (zh) * 2021-04-28 2023-08-04 百度在线网络技术(北京)有限公司 训练音频语种识别模型的方法、视频检测方法及其装置
CN114398952A (zh) * 2021-12-14 2022-04-26 北京百度网讯科技有限公司 训练文本生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111091811B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN111091811B (zh) 语音训练数据的处理方法、装置及存储介质
US10692480B2 (en) System and method of reading environment sound enhancement based on image processing and semantic analysis
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN110769178B (zh) 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质
US10031714B2 (en) Method and device for processing audio files
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
CN106328145B (zh) 语音修正方法及装置
KR20160061349A (ko) 터치스크린 상에 표시되는 조치 가능한 콘텐츠
CN111785279A (zh) 视频说话人的识别方法、装置、计算机设备及存储介质
US9818450B2 (en) System and method of subtitling by dividing script text into two languages
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
CN105828101A (zh) 生成字幕文件的方法及装置
CN112399269B (zh) 视频分割方法、装置、设备及存储介质
CN108924583A (zh) 视频文件生成方法及其设备、系统、存储介质
CN110740275A (zh) 一种非线性编辑系统
CN104994404A (zh) 一种为视频获取关键词的方法及装置
CN115269884A (zh) 生成视频语料的方法、装置及相关设备
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
WO2017201907A1 (zh) 检索词分类方法及装置
CN110853627A (zh) 用于语音标注的方法及系统
CN111125384A (zh) 一种多媒体答案生成方法、装置、终端设备以及存储介质
CN105898169A (zh) 一种视频处理方法及装置
CN113012723B (zh) 多媒体文件播放方法、装置、电子设备
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
CN114155841A (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant