CN105704538A - 一种音视频字幕生成方法及系统 - Google Patents

一种音视频字幕生成方法及系统 Download PDF

Info

Publication number
CN105704538A
CN105704538A CN201610153291.7A CN201610153291A CN105704538A CN 105704538 A CN105704538 A CN 105704538A CN 201610153291 A CN201610153291 A CN 201610153291A CN 105704538 A CN105704538 A CN 105704538A
Authority
CN
China
Prior art keywords
audio data
audio
video
data section
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610153291.7A
Other languages
English (en)
Inventor
王金龙
丁小响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201610153291.7A priority Critical patent/CN105704538A/zh
Publication of CN105704538A publication Critical patent/CN105704538A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明适用计算机技术领域,提供了一种音视频字幕生成方法及系统,所述方法包括:获取音视频数据,提取音视频数据中的音频数据;根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息;将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。本发明摆脱了人工录入字幕的繁杂工作量,实现通过识别音频数据得到文本数据,简单高效地生成完整的字幕。

Description

一种音视频字幕生成方法及系统
技术领域
本发明属于计算机技术领域,尤其涉及一种音视频字幕生成方法及系统。
背景技术
随着互联网技术的不断发展,音视频以其便捷的访问体验、多样化的影片来源以及实时的更新速度吸引了广大的用户,使得音视频成为了用户生活中不可或缺的重要组成部分。字幕的出现,使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容,越来越多的用户习惯了添加字幕的音视频文件,然而由于字幕的制作较复杂,尤其是使用大段的语音数据与大段的文本数据来生成字幕,对于没有字幕的音视频,用户只能依靠听到的内容进行理解,用户体验效果较差。
在无文本稿条件下,现有的音视频字幕的生成方法是通过人工一边看视频听音频,一边录入字幕文本,然后拍好时间轴,最后字幕文本与音视频合成,生成有字幕的音视频,而对于长度较长的音视频文件,需要花费大量的时间成本进行制作,造成音视频字幕生成效率较低,同时依赖人工进行录入,无疑人力成本较大。
发明内容
本发明的目的在于提供一种音视频字幕生成方法及系统,旨在解决现有技术中依赖人工进行录入字幕文本,所造成的人力成本较大、字幕生成效率较低的问题。
一方面,本发明提供了一种音视频字幕生成方法,所述方法包括下述步骤:
获取音视频数据,提取所述音视频数据中的音频数据;
根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
另一方面,本发明提供了一种音视频字幕生成系统,所述系统包括:
音频数据提取单元,用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元,用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元,用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
在本发明实施例中,根据说话的时间间隔、及视频画面大小对音频数据进行切分,符合人们沟通讲话的语言断句方式,且适应视频画面大小,保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容,同时提高了字幕生成效率,减少大量的人力成本。
附图说明
图1是本发明实施例一提供的音视频字幕生成方法的流程图;
图2是本发明实施例二提供的音视频字幕生成方法的流程图;
图3是本发明实施例三提供的音视频字幕生成系统的结构示意图;以及
图4是本发明实施例四提供的音视频字幕生成系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的音视频字幕生成方法的流程图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成方法,该方法包括如下步骤:
步骤S1,获取音视频数据,提取音视频数据中的音频数据。
在本实施例中,获取待处理的音视频数据可以是视频文件或者视频流,该视频文件或者视频流的来源包括但不限于:检测到的下载文件、对存储设备进行搜索所发现的视频文件、检测到的视频流(例如:直播视频流、http视频流)。提取音视频数据中的音频数据可以是不经切分处理的音频数据,也可以是经过切分处理后的音频。
步骤S2,根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息。
在本实施例中,根据说话的时间间隔对音频数据进行切分是根据音频数据中音频的波形图通过语音识别来判断应该断句位置。为了达到断句的精确性,可以设置停顿时间间隔、每段语音的时间间隔,使得在音频的波形图比较紧密的情况下能够精确断句。由于人声的语速快慢不同,有一般语速、较快语速以及较慢语速,为了进一步的实现断句的精确性,可以根据音频数据中人声的语速分别设置停顿时间间隔、每段语音的时间间隔。其中,对音频数据进行切分以得到适应视频画面大小的音频数据段保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容。
步骤S3,将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
在本实施例中,音频数据段通过语音识别得到文本数据段,可以是根据每段文本数据段的开始时间和结束时间将文本数据进行分割和换行,形成音频数据的字幕文本。具体地,将文本数据进行分割和换行的标准主要依据音视频中字幕与音频的配合。需要说明的是,生成音视频数据的字幕文本后,可以根据实际情况选择字幕文本的输出方式,字幕文本的输出方式包括但不限于:生成特定格式、符合字幕格式标准的字幕文本;在播放视频时,将字幕文本整合到音视频输出流中,让播放器去做字幕显示工作。
在本实施例中,将音频数据段通过语音识别得到对应的文本数据段,包括:将所述音频数据段与词库进行匹配,得到对应音频数据段的分类词库;根据所匹配的分类词库进行语音识别。该分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。通过将音频数据段与词库进行匹配可以得到与音频数据中原声语种对应语种分类词库,并可以利用该语种分类词库中的词汇进一步加快语音识别得到对应的文本数据、还可以通过将音频数据段与词库进行匹配得到与音频数据中的专业学科对应专业学科分类词库,例如历史题材的音频数据可以匹配到历史专业学科分类词库,可利用该专业学科分类词库中的词汇进一步加快语音识别得到对应的文本数据。
具体地,将音频数据段通过语音识别得到对应的文本数据段可以是将音频数据段中的音频内容直接识别成原声对应语言的文本数据,当然,也可将音频数据段中的音频内容识别成其它语言的文字。将音频数据段中的音频内容识别成其它语言的文字的具体过程为:获取用户选择的语言类别,将音频数据段识别成原声对应语言的文本数据,然后将识别出的原声对应语言的文本数据翻译成用户所选择的用户选择的语言类别的文本数据。
在本实施例中,根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。由于通过语音识别得到文本数据段中包含了大量的标点符号,其中很多标点符号不符合上下文的语境,为了方便进一步校对文本数据段,可对语音识别得到文本数据段进行过滤,将文本数据段中标点符号所占字节转换成对应字节的间隔标识符。以方便人工校对时,修改成符合语境的标点符号。
实施例二:
图2示出了本发明实施例二提供的音视频字幕生成方法的流程图,详述如下:
步骤S1,获取音视频数据,提取音视频数据中的音频数据。
步骤S2,根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息。
步骤S3,将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
步骤S4,根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,时间信息包括各文本数据段的开始时间和结束时间。
在本实施例中,为了提高字幕的同步精准度,将各音频数据段与其对应的文本数据段进行同步,可以是逐句进行同步将识别后的文本数据段依据开始时间和结束时间的时间戳生成字幕显示文本,按照一句时间戳加一句字幕的格式写入字幕文本。
实施例三:
图3示出了本发明实施例三提供的音视频字幕生成系统的结构示意图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成系统,该系统包括:音频数据提取单元31,切分单元32,以及字幕文本形成单元33。
具体地,音频数据提取单元31用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元32用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;以及
字幕文本形成单元33用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
其中,字幕文本形成单元33包括:词库匹配单元331、及间隔标识符添加单元332。
具体地,词库匹配单元331,用于将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;根据所匹配的分类词库进行语音识别。
该分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。间隔标识符添加单元332,用于根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
实施例四:
图4示出了本发明实施例四提供的音视频字幕生成系统的结构示意图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成系统,该系统包括:音频数据提取单元31,切分单元32,字幕文本形成单元33,以及同步单元34。
具体地,音频数据提取单元31用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元32用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元33用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本;以及
同步单元34用于根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音视频字幕生成方法,其特征在于,所述方法包括如下步骤:
获取音视频数据,提取所述音视频数据中的音频数据;
根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
2.如权利要求1所述的方法,其特征在于,所述将所述音频数据段通过语音识别得到对应的文本数据段,包括:
将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;
根据所匹配的分类词库进行语音识别。
3.如权利要求2所述的方法,其特征在于,所述分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。
4.如权利要求1所述的方法,其特征在于,所述将所述音频数据段通过语音识别得到对应的文本数据段,还包括:
根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
6.一种音视频字幕生成系统,其特征在于,所述系统包括:
音频数据提取单元,用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元,用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元,用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
7.如权利要求6所述的系统,其特征在于,所述字幕文本形成单元包括:
词库匹配单元,用于将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;根据所匹配的分类词库进行语音识别。
8.如权利要求7所述的系统,其特征在于,所述分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。
9.如权利要求6所述的系统,其特征在于,所述字幕文本形成单元还包括:
间隔标识符添加单元,用于根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
10.如权利要求6所述的系统,其特征在于,所述系统还包括:
同步单元,用于根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
CN201610153291.7A 2016-03-17 2016-03-17 一种音视频字幕生成方法及系统 Pending CN105704538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610153291.7A CN105704538A (zh) 2016-03-17 2016-03-17 一种音视频字幕生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610153291.7A CN105704538A (zh) 2016-03-17 2016-03-17 一种音视频字幕生成方法及系统

Publications (1)

Publication Number Publication Date
CN105704538A true CN105704538A (zh) 2016-06-22

Family

ID=56221931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610153291.7A Pending CN105704538A (zh) 2016-03-17 2016-03-17 一种音视频字幕生成方法及系统

Country Status (1)

Country Link
CN (1) CN105704538A (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106341722A (zh) * 2016-09-21 2017-01-18 努比亚技术有限公司 一种视频编辑方法及装置
CN106385548A (zh) * 2016-09-05 2017-02-08 努比亚技术有限公司 一种移动终端及生成视频字幕的方法
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106528715A (zh) * 2016-10-27 2017-03-22 广东小天才科技有限公司 一种音频内容校核方法及装置
CN106547889A (zh) * 2016-10-27 2017-03-29 广东小天才科技有限公司 一种题目推送方法及装置
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN106792071A (zh) * 2016-12-19 2017-05-31 北京小米移动软件有限公司 字幕处理方法及装置
CN106816151A (zh) * 2016-12-19 2017-06-09 广东小天才科技有限公司 一种字幕对准方法及装置
CN107221330A (zh) * 2017-05-26 2017-09-29 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107295307A (zh) * 2017-07-13 2017-10-24 安徽声讯信息技术有限公司 基于远程控制的文字与视频同步控制系统
CN107517406A (zh) * 2017-09-05 2017-12-26 语联网(武汉)信息技术有限公司 一种视频剪辑及翻译的方法
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
CN107688792A (zh) * 2017-09-05 2018-02-13 语联网(武汉)信息技术有限公司 一种视频翻译方法及其系统
CN108289244A (zh) * 2017-12-28 2018-07-17 努比亚技术有限公司 视频字幕处理方法、移动终端及计算机可读存储介质
CN108566558A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
CN109389999A (zh) * 2018-09-28 2019-02-26 北京亿幕信息技术有限公司 一种高性能的音视频自动断句方法和系统
CN109587543A (zh) * 2018-12-27 2019-04-05 秒针信息技术有限公司 音频同步方法和装置及存储介质
CN109743613A (zh) * 2018-12-29 2019-05-10 腾讯音乐娱乐科技(深圳)有限公司 一种字幕处理方法、装置、终端及存储介质
CN110933485A (zh) * 2019-10-21 2020-03-27 天脉聚源(杭州)传媒科技有限公司 一种视频字幕生成方法、系统、装置和存储介质
WO2020108098A1 (zh) * 2018-11-27 2020-06-04 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置
CN112182298A (zh) * 2019-06-14 2021-01-05 珠海金山办公软件有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN112601101A (zh) * 2020-12-11 2021-04-02 北京有竹居网络技术有限公司 一种字幕显示方法、装置、电子设备及存储介质
CN112653932A (zh) * 2020-12-17 2021-04-13 北京百度网讯科技有限公司 用于移动终端的字幕生成方法、装置、设备以及存储介质
CN112954434A (zh) * 2021-02-26 2021-06-11 北京奇艺世纪科技有限公司 字幕处理方法、系统、电子设备和存储介质
CN113096643A (zh) * 2021-03-25 2021-07-09 北京百度网讯科技有限公司 视频的处理方法和装置
CN113099292A (zh) * 2021-04-21 2021-07-09 湖南快乐阳光互动娱乐传媒有限公司 一种基于视频的多语种字幕生成方法及装置
CN113115103A (zh) * 2021-03-09 2021-07-13 杭州麦趣网络科技有限公司 一种网络直播实现实时音频转文字的系统及方法
CN113343675A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种字幕生成方法、装置和用于生成字幕的装置
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统
CN114299950A (zh) * 2021-12-30 2022-04-08 北京字跳网络技术有限公司 一种字幕生成方法、装置及设备
EP4171018A4 (en) * 2020-07-23 2024-01-03 Beijing Bytedance Network Technology Co., Ltd. SUBTITLE GENERATION METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010193150A (ja) * 2009-02-18 2010-09-02 Toshiba Corp 字幕変換装置および字幕変換方法
CN102227767A (zh) * 2008-11-12 2011-10-26 Scti控股公司 自动语音-文本转换系统和方法
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102227767A (zh) * 2008-11-12 2011-10-26 Scti控股公司 自动语音-文本转换系统和方法
JP2010193150A (ja) * 2009-02-18 2010-09-02 Toshiba Corp 字幕変換装置および字幕変換方法
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103067775A (zh) * 2013-01-28 2013-04-24 Tcl集团股份有限公司 一种音视频终端的字幕显示方法、音视频终端及服务器
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN106385548A (zh) * 2016-09-05 2017-02-08 努比亚技术有限公司 一种移动终端及生成视频字幕的方法
CN106341722A (zh) * 2016-09-21 2017-01-18 努比亚技术有限公司 一种视频编辑方法及装置
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106528715A (zh) * 2016-10-27 2017-03-22 广东小天才科技有限公司 一种音频内容校核方法及装置
CN106547889A (zh) * 2016-10-27 2017-03-29 广东小天才科技有限公司 一种题目推送方法及装置
CN106792071A (zh) * 2016-12-19 2017-05-31 北京小米移动软件有限公司 字幕处理方法及装置
CN106816151A (zh) * 2016-12-19 2017-06-09 广东小天才科技有限公司 一种字幕对准方法及装置
CN106816151B (zh) * 2016-12-19 2020-07-28 广东小天才科技有限公司 一种字幕对准方法及装置
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN107221330A (zh) * 2017-05-26 2017-09-29 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107295307A (zh) * 2017-07-13 2017-10-24 安徽声讯信息技术有限公司 基于远程控制的文字与视频同步控制系统
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107688792A (zh) * 2017-09-05 2018-02-13 语联网(武汉)信息技术有限公司 一种视频翻译方法及其系统
CN107517406B (zh) * 2017-09-05 2020-02-14 语联网(武汉)信息技术有限公司 一种视频剪辑及翻译的方法
CN107517406A (zh) * 2017-09-05 2017-12-26 语联网(武汉)信息技术有限公司 一种视频剪辑及翻译的方法
CN108289244A (zh) * 2017-12-28 2018-07-17 努比亚技术有限公司 视频字幕处理方法、移动终端及计算机可读存储介质
CN108566558A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108566558B (zh) * 2018-04-24 2023-02-28 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
US11252444B2 (en) 2018-04-24 2022-02-15 Tencent Technology (Shenzhen) Company Limited Video stream processing method, computer device, and storage medium
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及系统
CN109389999A (zh) * 2018-09-28 2019-02-26 北京亿幕信息技术有限公司 一种高性能的音视频自动断句方法和系统
WO2020108098A1 (zh) * 2018-11-27 2020-06-04 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
US11418832B2 (en) 2018-11-27 2022-08-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Video processing method, electronic device and computer-readable storage medium
CN109587543A (zh) * 2018-12-27 2019-04-05 秒针信息技术有限公司 音频同步方法和装置及存储介质
CN109587543B (zh) * 2018-12-27 2021-04-02 秒针信息技术有限公司 音频同步方法和装置及存储介质
CN109743613A (zh) * 2018-12-29 2019-05-10 腾讯音乐娱乐科技(深圳)有限公司 一种字幕处理方法、装置、终端及存储介质
CN109743613B (zh) * 2018-12-29 2022-01-18 腾讯音乐娱乐科技(深圳)有限公司 一种字幕处理方法、装置、终端及存储介质
CN112182298A (zh) * 2019-06-14 2021-01-05 珠海金山办公软件有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN110933485A (zh) * 2019-10-21 2020-03-27 天脉聚源(杭州)传媒科技有限公司 一种视频字幕生成方法、系统、装置和存储介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置
EP4171018A4 (en) * 2020-07-23 2024-01-03 Beijing Bytedance Network Technology Co., Ltd. SUBTITLE GENERATION METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM
CN112601101A (zh) * 2020-12-11 2021-04-02 北京有竹居网络技术有限公司 一种字幕显示方法、装置、电子设备及存储介质
CN112601101B (zh) * 2020-12-11 2023-02-24 北京有竹居网络技术有限公司 一种字幕显示方法、装置、电子设备及存储介质
CN112653932A (zh) * 2020-12-17 2021-04-13 北京百度网讯科技有限公司 用于移动终端的字幕生成方法、装置、设备以及存储介质
CN112653932B (zh) * 2020-12-17 2023-09-26 北京百度网讯科技有限公司 用于移动终端的字幕生成方法、装置、设备以及存储介质
CN112954434A (zh) * 2021-02-26 2021-06-11 北京奇艺世纪科技有限公司 字幕处理方法、系统、电子设备和存储介质
CN112954434B (zh) * 2021-02-26 2023-07-04 北京奇艺世纪科技有限公司 字幕处理方法、系统、电子设备和存储介质
CN113115103A (zh) * 2021-03-09 2021-07-13 杭州麦趣网络科技有限公司 一种网络直播实现实时音频转文字的系统及方法
CN113096643A (zh) * 2021-03-25 2021-07-09 北京百度网讯科技有限公司 视频的处理方法和装置
CN113099292A (zh) * 2021-04-21 2021-07-09 湖南快乐阳光互动娱乐传媒有限公司 一种基于视频的多语种字幕生成方法及装置
CN113343675A (zh) * 2021-06-30 2021-09-03 北京搜狗科技发展有限公司 一种字幕生成方法、装置和用于生成字幕的装置
CN113343675B (zh) * 2021-06-30 2024-09-06 北京搜狗科技发展有限公司 一种字幕生成方法、装置和用于生成字幕的装置
CN113490058A (zh) * 2021-08-20 2021-10-08 云知声(上海)智能科技有限公司 一种应用于影视后期的智能字幕匹配系统
CN114299950A (zh) * 2021-12-30 2022-04-08 北京字跳网络技术有限公司 一种字幕生成方法、装置及设备

Similar Documents

Publication Publication Date Title
CN105704538A (zh) 一种音视频字幕生成方法及系统
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN105245917B (zh) 一种多媒体语音字幕生成的系统和方法
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
CN103226947B (zh) 一种基于移动终端的音频处理方法及装置
US8554558B2 (en) Visualizing automatic speech recognition and machine translation output
KR102061044B1 (ko) 수화 번역 및 화면 해설 서비스 방법 및 시스템
CN104252861B (zh) 视频语音转换方法、装置和服务器
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
US9588967B2 (en) Interpretation apparatus and method
KR20120081471A (ko) 자연어 처리용 문법 자동 생성 장치 및 방법
CN105635782A (zh) 一种字幕输出方法及装置
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
Tardel Effort in semi-automatized subtitling processes: speech recognition and experience during transcription
Knight et al. HeadTalk, HandTalk and the corpus: Towards a framework for multi-modal, multi-media corpus development
Yang et al. An automated analysis and indexing framework for lecture video portal
KR20210138311A (ko) 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
JP4140745B2 (ja) 字幕へのタイミング情報付与方法
CN106550268B (zh) 视频处理方法和视频处理装置
KR20160002081A (ko) 음성 인식을 활용한 수화 번역 장치 및 그 방법
Lakritz et al. The semi-automatic generation of audio description from screenplays
Jiang SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language
Hanke et al. EASIER Notation–a proposal for a gloss-based scripting language for sign language generation based on lexical data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160622