CN105704538A - 一种音视频字幕生成方法及系统 - Google Patents
一种音视频字幕生成方法及系统 Download PDFInfo
- Publication number
- CN105704538A CN105704538A CN201610153291.7A CN201610153291A CN105704538A CN 105704538 A CN105704538 A CN 105704538A CN 201610153291 A CN201610153291 A CN 201610153291A CN 105704538 A CN105704538 A CN 105704538A
- Authority
- CN
- China
- Prior art keywords
- audio data
- audio
- video
- data section
- data segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000002123 temporal effect Effects 0.000 claims description 24
- 238000005520 cutting process Methods 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000029087 digestion Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明适用计算机技术领域,提供了一种音视频字幕生成方法及系统,所述方法包括:获取音视频数据,提取音视频数据中的音频数据;根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息;将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。本发明摆脱了人工录入字幕的繁杂工作量,实现通过识别音频数据得到文本数据,简单高效地生成完整的字幕。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种音视频字幕生成方法及系统。
背景技术
随着互联网技术的不断发展,音视频以其便捷的访问体验、多样化的影片来源以及实时的更新速度吸引了广大的用户,使得音视频成为了用户生活中不可或缺的重要组成部分。字幕的出现,使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容,越来越多的用户习惯了添加字幕的音视频文件,然而由于字幕的制作较复杂,尤其是使用大段的语音数据与大段的文本数据来生成字幕,对于没有字幕的音视频,用户只能依靠听到的内容进行理解,用户体验效果较差。
在无文本稿条件下,现有的音视频字幕的生成方法是通过人工一边看视频听音频,一边录入字幕文本,然后拍好时间轴,最后字幕文本与音视频合成,生成有字幕的音视频,而对于长度较长的音视频文件,需要花费大量的时间成本进行制作,造成音视频字幕生成效率较低,同时依赖人工进行录入,无疑人力成本较大。
发明内容
本发明的目的在于提供一种音视频字幕生成方法及系统,旨在解决现有技术中依赖人工进行录入字幕文本,所造成的人力成本较大、字幕生成效率较低的问题。
一方面,本发明提供了一种音视频字幕生成方法,所述方法包括下述步骤:
获取音视频数据,提取所述音视频数据中的音频数据;
根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
另一方面,本发明提供了一种音视频字幕生成系统,所述系统包括:
音频数据提取单元,用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元,用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元,用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
在本发明实施例中,根据说话的时间间隔、及视频画面大小对音频数据进行切分,符合人们沟通讲话的语言断句方式,且适应视频画面大小,保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容,同时提高了字幕生成效率,减少大量的人力成本。
附图说明
图1是本发明实施例一提供的音视频字幕生成方法的流程图;
图2是本发明实施例二提供的音视频字幕生成方法的流程图;
图3是本发明实施例三提供的音视频字幕生成系统的结构示意图;以及
图4是本发明实施例四提供的音视频字幕生成系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的音视频字幕生成方法的流程图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成方法,该方法包括如下步骤:
步骤S1,获取音视频数据,提取音视频数据中的音频数据。
在本实施例中,获取待处理的音视频数据可以是视频文件或者视频流,该视频文件或者视频流的来源包括但不限于:检测到的下载文件、对存储设备进行搜索所发现的视频文件、检测到的视频流(例如:直播视频流、http视频流)。提取音视频数据中的音频数据可以是不经切分处理的音频数据,也可以是经过切分处理后的音频。
步骤S2,根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息。
在本实施例中,根据说话的时间间隔对音频数据进行切分是根据音频数据中音频的波形图通过语音识别来判断应该断句位置。为了达到断句的精确性,可以设置停顿时间间隔、每段语音的时间间隔,使得在音频的波形图比较紧密的情况下能够精确断句。由于人声的语速快慢不同,有一般语速、较快语速以及较慢语速,为了进一步的实现断句的精确性,可以根据音频数据中人声的语速分别设置停顿时间间隔、每段语音的时间间隔。其中,对音频数据进行切分以得到适应视频画面大小的音频数据段保证了音视频画面中呈现出的字幕阅读量能够使得观看者感到舒适、方便消化理解字幕内容。
步骤S3,将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
在本实施例中,音频数据段通过语音识别得到文本数据段,可以是根据每段文本数据段的开始时间和结束时间将文本数据进行分割和换行,形成音频数据的字幕文本。具体地,将文本数据进行分割和换行的标准主要依据音视频中字幕与音频的配合。需要说明的是,生成音视频数据的字幕文本后,可以根据实际情况选择字幕文本的输出方式,字幕文本的输出方式包括但不限于:生成特定格式、符合字幕格式标准的字幕文本;在播放视频时,将字幕文本整合到音视频输出流中,让播放器去做字幕显示工作。
在本实施例中,将音频数据段通过语音识别得到对应的文本数据段,包括:将所述音频数据段与词库进行匹配,得到对应音频数据段的分类词库;根据所匹配的分类词库进行语音识别。该分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。通过将音频数据段与词库进行匹配可以得到与音频数据中原声语种对应语种分类词库,并可以利用该语种分类词库中的词汇进一步加快语音识别得到对应的文本数据、还可以通过将音频数据段与词库进行匹配得到与音频数据中的专业学科对应专业学科分类词库,例如历史题材的音频数据可以匹配到历史专业学科分类词库,可利用该专业学科分类词库中的词汇进一步加快语音识别得到对应的文本数据。
具体地,将音频数据段通过语音识别得到对应的文本数据段可以是将音频数据段中的音频内容直接识别成原声对应语言的文本数据,当然,也可将音频数据段中的音频内容识别成其它语言的文字。将音频数据段中的音频内容识别成其它语言的文字的具体过程为:获取用户选择的语言类别,将音频数据段识别成原声对应语言的文本数据,然后将识别出的原声对应语言的文本数据翻译成用户所选择的用户选择的语言类别的文本数据。
在本实施例中,根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。由于通过语音识别得到文本数据段中包含了大量的标点符号,其中很多标点符号不符合上下文的语境,为了方便进一步校对文本数据段,可对语音识别得到文本数据段进行过滤,将文本数据段中标点符号所占字节转换成对应字节的间隔标识符。以方便人工校对时,修改成符合语境的标点符号。
实施例二:
图2示出了本发明实施例二提供的音视频字幕生成方法的流程图,详述如下:
步骤S1,获取音视频数据,提取音视频数据中的音频数据。
步骤S2,根据说话的时间间隔、及视频画面大小,对音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录音频数据段的时间信息。
步骤S3,将音频数据段通过语音识别得到对应的文本数据段,并根据音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
步骤S4,根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,时间信息包括各文本数据段的开始时间和结束时间。
在本实施例中,为了提高字幕的同步精准度,将各音频数据段与其对应的文本数据段进行同步,可以是逐句进行同步将识别后的文本数据段依据开始时间和结束时间的时间戳生成字幕显示文本,按照一句时间戳加一句字幕的格式写入字幕文本。
实施例三:
图3示出了本发明实施例三提供的音视频字幕生成系统的结构示意图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成系统,该系统包括:音频数据提取单元31,切分单元32,以及字幕文本形成单元33。
具体地,音频数据提取单元31用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元32用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;以及
字幕文本形成单元33用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
其中,字幕文本形成单元33包括:词库匹配单元331、及间隔标识符添加单元332。
具体地,词库匹配单元331,用于将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;根据所匹配的分类词库进行语音识别。
该分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。间隔标识符添加单元332,用于根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
实施例四:
图4示出了本发明实施例四提供的音视频字幕生成系统的结构示意图,为了便于描述,仅示出了与本发明实施例相关的部分,本发明实施例提供的音视频字幕生成系统,该系统包括:音频数据提取单元31,切分单元32,字幕文本形成单元33,以及同步单元34。
具体地,音频数据提取单元31用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元32用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元33用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本;以及
同步单元34用于根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音视频字幕生成方法,其特征在于,所述方法包括如下步骤:
获取音视频数据,提取所述音视频数据中的音频数据;
根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
2.如权利要求1所述的方法,其特征在于,所述将所述音频数据段通过语音识别得到对应的文本数据段,包括:
将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;
根据所匹配的分类词库进行语音识别。
3.如权利要求2所述的方法,其特征在于,所述分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。
4.如权利要求1所述的方法,其特征在于,所述将所述音频数据段通过语音识别得到对应的文本数据段,还包括:
根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
6.一种音视频字幕生成系统,其特征在于,所述系统包括:
音频数据提取单元,用于获取音视频数据,提取所述音视频数据中的音频数据;
切分单元,用于根据说话的时间间隔、及视频画面大小,对所述音频数据进行切分,得到符合说话方式、及适应视频画面大小的音频数据段,并记录所述音频数据段的时间信息;
字幕文本形成单元,用于将所述音频数据段通过语音识别得到对应的文本数据段,并根据所述音频数据段的时间信息,得到对应的文本数据段的开始时间和结束时间,形成字幕文本。
7.如权利要求6所述的系统,其特征在于,所述字幕文本形成单元包括:
词库匹配单元,用于将所述音频数据段与词库进行匹配,得到对应所述音频数据段的分类词库;根据所匹配的分类词库进行语音识别。
8.如权利要求7所述的系统,其特征在于,所述分类词库包括:两种以上的语种分类词库、及两种以上的专业学科分类词库。
9.如权利要求6所述的系统,其特征在于,所述字幕文本形成单元还包括:
间隔标识符添加单元,用于根据说话的时间间隔的长短,在对应的文本数据段中添加间隔标识符。
10.如权利要求6所述的系统,其特征在于,所述系统还包括:
同步单元,用于根据音频数据段的时间信息,将各音频数据段与其对应的文本数据段进行同步,所述时间信息包括各文本数据段的开始时间和结束时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610153291.7A CN105704538A (zh) | 2016-03-17 | 2016-03-17 | 一种音视频字幕生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610153291.7A CN105704538A (zh) | 2016-03-17 | 2016-03-17 | 一种音视频字幕生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105704538A true CN105704538A (zh) | 2016-06-22 |
Family
ID=56221931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610153291.7A Pending CN105704538A (zh) | 2016-03-17 | 2016-03-17 | 一种音视频字幕生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105704538A (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328146A (zh) * | 2016-08-22 | 2017-01-11 | 广东小天才科技有限公司 | 一种视频的字幕生成方法及装置 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
CN106341722A (zh) * | 2016-09-21 | 2017-01-18 | 努比亚技术有限公司 | 一种视频编辑方法及装置 |
CN106385548A (zh) * | 2016-09-05 | 2017-02-08 | 努比亚技术有限公司 | 一种移动终端及生成视频字幕的方法 |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106547889A (zh) * | 2016-10-27 | 2017-03-29 | 广东小天才科技有限公司 | 一种题目推送方法及装置 |
CN106782543A (zh) * | 2017-03-24 | 2017-05-31 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN106792071A (zh) * | 2016-12-19 | 2017-05-31 | 北京小米移动软件有限公司 | 字幕处理方法及装置 |
CN106816151A (zh) * | 2016-12-19 | 2017-06-09 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107295307A (zh) * | 2017-07-13 | 2017-10-24 | 安徽声讯信息技术有限公司 | 基于远程控制的文字与视频同步控制系统 |
CN107517406A (zh) * | 2017-09-05 | 2017-12-26 | 语联网(武汉)信息技术有限公司 | 一种视频剪辑及翻译的方法 |
CN107527623A (zh) * | 2017-08-07 | 2017-12-29 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN107690089A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、直播方法及装置 |
CN107688792A (zh) * | 2017-09-05 | 2018-02-13 | 语联网(武汉)信息技术有限公司 | 一种视频翻译方法及其系统 |
CN108289244A (zh) * | 2017-12-28 | 2018-07-17 | 努比亚技术有限公司 | 视频字幕处理方法、移动终端及计算机可读存储介质 |
CN108566558A (zh) * | 2018-04-24 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 视频流处理方法、装置、计算机设备及存储介质 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109389999A (zh) * | 2018-09-28 | 2019-02-26 | 北京亿幕信息技术有限公司 | 一种高性能的音视频自动断句方法和系统 |
CN109587543A (zh) * | 2018-12-27 | 2019-04-05 | 秒针信息技术有限公司 | 音频同步方法和装置及存储介质 |
CN109743613A (zh) * | 2018-12-29 | 2019-05-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕处理方法、装置、终端及存储介质 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
WO2020108098A1 (zh) * | 2018-11-27 | 2020-06-04 | Oppo广东移动通信有限公司 | 视频处理方法、装置、电子设备及计算机可读介质 |
CN111901615A (zh) * | 2020-06-28 | 2020-11-06 | 北京百度网讯科技有限公司 | 直播视频的播放方法和装置 |
CN112182298A (zh) * | 2019-06-14 | 2021-01-05 | 珠海金山办公软件有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN112601101A (zh) * | 2020-12-11 | 2021-04-02 | 北京有竹居网络技术有限公司 | 一种字幕显示方法、装置、电子设备及存储介质 |
CN112653932A (zh) * | 2020-12-17 | 2021-04-13 | 北京百度网讯科技有限公司 | 用于移动终端的字幕生成方法、装置、设备以及存储介质 |
CN112954434A (zh) * | 2021-02-26 | 2021-06-11 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN113096643A (zh) * | 2021-03-25 | 2021-07-09 | 北京百度网讯科技有限公司 | 视频的处理方法和装置 |
CN113099292A (zh) * | 2021-04-21 | 2021-07-09 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于视频的多语种字幕生成方法及装置 |
CN113115103A (zh) * | 2021-03-09 | 2021-07-13 | 杭州麦趣网络科技有限公司 | 一种网络直播实现实时音频转文字的系统及方法 |
CN113343675A (zh) * | 2021-06-30 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种字幕生成方法、装置和用于生成字幕的装置 |
CN113490058A (zh) * | 2021-08-20 | 2021-10-08 | 云知声(上海)智能科技有限公司 | 一种应用于影视后期的智能字幕匹配系统 |
CN114299950A (zh) * | 2021-12-30 | 2022-04-08 | 北京字跳网络技术有限公司 | 一种字幕生成方法、装置及设备 |
EP4171018A4 (en) * | 2020-07-23 | 2024-01-03 | Beijing Bytedance Network Technology Co., Ltd. | SUBTITLE GENERATION METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010193150A (ja) * | 2009-02-18 | 2010-09-02 | Toshiba Corp | 字幕変換装置および字幕変換方法 |
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
CN103327397A (zh) * | 2012-03-22 | 2013-09-25 | 联想(北京)有限公司 | 一种媒体文件的字幕同步显示方法及系统 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
-
2016
- 2016-03-17 CN CN201610153291.7A patent/CN105704538A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
JP2010193150A (ja) * | 2009-02-18 | 2010-09-02 | Toshiba Corp | 字幕変換装置および字幕変換方法 |
CN103327397A (zh) * | 2012-03-22 | 2013-09-25 | 联想(北京)有限公司 | 一种媒体文件的字幕同步显示方法及系统 |
CN103067775A (zh) * | 2013-01-28 | 2013-04-24 | Tcl集团股份有限公司 | 一种音视频终端的字幕显示方法、音视频终端及服务器 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107690089A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、直播方法及装置 |
CN106328146A (zh) * | 2016-08-22 | 2017-01-11 | 广东小天才科技有限公司 | 一种视频的字幕生成方法及装置 |
CN106385548A (zh) * | 2016-09-05 | 2017-02-08 | 努比亚技术有限公司 | 一种移动终端及生成视频字幕的方法 |
CN106341722A (zh) * | 2016-09-21 | 2017-01-18 | 努比亚技术有限公司 | 一种视频编辑方法及装置 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106547889A (zh) * | 2016-10-27 | 2017-03-29 | 广东小天才科技有限公司 | 一种题目推送方法及装置 |
CN106792071A (zh) * | 2016-12-19 | 2017-05-31 | 北京小米移动软件有限公司 | 字幕处理方法及装置 |
CN106816151A (zh) * | 2016-12-19 | 2017-06-09 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN106816151B (zh) * | 2016-12-19 | 2020-07-28 | 广东小天才科技有限公司 | 一种字幕对准方法及装置 |
CN106782543A (zh) * | 2017-03-24 | 2017-05-31 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107295307A (zh) * | 2017-07-13 | 2017-10-24 | 安徽声讯信息技术有限公司 | 基于远程控制的文字与视频同步控制系统 |
CN107527623A (zh) * | 2017-08-07 | 2017-12-29 | 广州视源电子科技股份有限公司 | 传屏方法、装置、电子设备及计算机可读存储介质 |
CN107688792A (zh) * | 2017-09-05 | 2018-02-13 | 语联网(武汉)信息技术有限公司 | 一种视频翻译方法及其系统 |
CN107517406B (zh) * | 2017-09-05 | 2020-02-14 | 语联网(武汉)信息技术有限公司 | 一种视频剪辑及翻译的方法 |
CN107517406A (zh) * | 2017-09-05 | 2017-12-26 | 语联网(武汉)信息技术有限公司 | 一种视频剪辑及翻译的方法 |
CN108289244A (zh) * | 2017-12-28 | 2018-07-17 | 努比亚技术有限公司 | 视频字幕处理方法、移动终端及计算机可读存储介质 |
CN108566558A (zh) * | 2018-04-24 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 视频流处理方法、装置、计算机设备及存储介质 |
CN108566558B (zh) * | 2018-04-24 | 2023-02-28 | 腾讯科技(深圳)有限公司 | 视频流处理方法、装置、计算机设备及存储介质 |
US11252444B2 (en) | 2018-04-24 | 2022-02-15 | Tencent Technology (Shenzhen) Company Limited | Video stream processing method, computer device, and storage medium |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109389999A (zh) * | 2018-09-28 | 2019-02-26 | 北京亿幕信息技术有限公司 | 一种高性能的音视频自动断句方法和系统 |
WO2020108098A1 (zh) * | 2018-11-27 | 2020-06-04 | Oppo广东移动通信有限公司 | 视频处理方法、装置、电子设备及计算机可读介质 |
US11418832B2 (en) | 2018-11-27 | 2022-08-16 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Video processing method, electronic device and computer-readable storage medium |
CN109587543A (zh) * | 2018-12-27 | 2019-04-05 | 秒针信息技术有限公司 | 音频同步方法和装置及存储介质 |
CN109587543B (zh) * | 2018-12-27 | 2021-04-02 | 秒针信息技术有限公司 | 音频同步方法和装置及存储介质 |
CN109743613A (zh) * | 2018-12-29 | 2019-05-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕处理方法、装置、终端及存储介质 |
CN109743613B (zh) * | 2018-12-29 | 2022-01-18 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种字幕处理方法、装置、终端及存储介质 |
CN112182298A (zh) * | 2019-06-14 | 2021-01-05 | 珠海金山办公软件有限公司 | 一种信息处理的方法、装置、计算机存储介质及终端 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN111901615A (zh) * | 2020-06-28 | 2020-11-06 | 北京百度网讯科技有限公司 | 直播视频的播放方法和装置 |
EP4171018A4 (en) * | 2020-07-23 | 2024-01-03 | Beijing Bytedance Network Technology Co., Ltd. | SUBTITLE GENERATION METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM |
CN112601101A (zh) * | 2020-12-11 | 2021-04-02 | 北京有竹居网络技术有限公司 | 一种字幕显示方法、装置、电子设备及存储介质 |
CN112601101B (zh) * | 2020-12-11 | 2023-02-24 | 北京有竹居网络技术有限公司 | 一种字幕显示方法、装置、电子设备及存储介质 |
CN112653932A (zh) * | 2020-12-17 | 2021-04-13 | 北京百度网讯科技有限公司 | 用于移动终端的字幕生成方法、装置、设备以及存储介质 |
CN112653932B (zh) * | 2020-12-17 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于移动终端的字幕生成方法、装置、设备以及存储介质 |
CN112954434A (zh) * | 2021-02-26 | 2021-06-11 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN112954434B (zh) * | 2021-02-26 | 2023-07-04 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN113115103A (zh) * | 2021-03-09 | 2021-07-13 | 杭州麦趣网络科技有限公司 | 一种网络直播实现实时音频转文字的系统及方法 |
CN113096643A (zh) * | 2021-03-25 | 2021-07-09 | 北京百度网讯科技有限公司 | 视频的处理方法和装置 |
CN113099292A (zh) * | 2021-04-21 | 2021-07-09 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于视频的多语种字幕生成方法及装置 |
CN113343675A (zh) * | 2021-06-30 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种字幕生成方法、装置和用于生成字幕的装置 |
CN113343675B (zh) * | 2021-06-30 | 2024-09-06 | 北京搜狗科技发展有限公司 | 一种字幕生成方法、装置和用于生成字幕的装置 |
CN113490058A (zh) * | 2021-08-20 | 2021-10-08 | 云知声(上海)智能科技有限公司 | 一种应用于影视后期的智能字幕匹配系统 |
CN114299950A (zh) * | 2021-12-30 | 2022-04-08 | 北京字跳网络技术有限公司 | 一种字幕生成方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105704538A (zh) | 一种音视频字幕生成方法及系统 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN105245917B (zh) | 一种多媒体语音字幕生成的系统和方法 | |
KR101990023B1 (ko) | 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템 | |
CN103226947B (zh) | 一种基于移动终端的音频处理方法及装置 | |
US8554558B2 (en) | Visualizing automatic speech recognition and machine translation output | |
KR102061044B1 (ko) | 수화 번역 및 화면 해설 서비스 방법 및 시스템 | |
CN104252861B (zh) | 视频语音转换方法、装置和服务器 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
US9588967B2 (en) | Interpretation apparatus and method | |
KR20120081471A (ko) | 자연어 처리용 문법 자동 생성 장치 및 방법 | |
CN105635782A (zh) | 一种字幕输出方法及装置 | |
Stappen et al. | Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild | |
EP4322029A1 (en) | Method and apparatus for generating video corpus, and related device | |
Tardel | Effort in semi-automatized subtitling processes: speech recognition and experience during transcription | |
Knight et al. | HeadTalk, HandTalk and the corpus: Towards a framework for multi-modal, multi-media corpus development | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
KR20210138311A (ko) | 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법 | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
KR20160002081A (ko) | 음성 인식을 활용한 수화 번역 장치 및 그 방법 | |
Lakritz et al. | The semi-automatic generation of audio description from screenplays | |
Jiang | SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language | |
Hanke et al. | EASIER Notation–a proposal for a gloss-based scripting language for sign language generation based on lexical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160622 |