CN111986656A - 教学视频自动字幕处理方法与系统 - Google Patents
教学视频自动字幕处理方法与系统 Download PDFInfo
- Publication number
- CN111986656A CN111986656A CN202010891570.XA CN202010891570A CN111986656A CN 111986656 A CN111986656 A CN 111986656A CN 202010891570 A CN202010891570 A CN 202010891570A CN 111986656 A CN111986656 A CN 111986656A
- Authority
- CN
- China
- Prior art keywords
- data
- sound
- segment
- target
- subdata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 238000005215 recombination Methods 0.000 claims abstract description 14
- 230000006798 recombination Effects 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims description 88
- 238000012937 correction Methods 0.000 claims description 21
- 230000001815 facial effect Effects 0.000 claims description 15
- 238000000926 separation method Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009638 autodisplay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Educational Administration (AREA)
- Human Computer Interaction (AREA)
- Marketing (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Studio Circuits (AREA)
Abstract
本发明提供了教学视频自动字幕处理方法与系统,其通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
Description
技术领域
本发明涉及智能教育的技术领域,特别涉及教学视频自动字幕处理方法与系统。
背景技术
目前,智能教学需要借助相应的教学视频执行预设课程的教授,而现有的教学视频通常都是预先录制形成的,但是录制形成的教学视频是未配置有字幕的,在缺少字幕的情况下,用户可能无法清楚地和准确地理解教学视频中的语音信息,这严重地降低了教学视频对不同场合的适用性。现有技术通常是通过人工方式识别教学视频中的语音信息,再根据该语音信息生成相应的字幕以添加到教学视频中,但是这种方式不仅工作大、效率低下,并且还容易出现字幕翻译错误和字幕显示时序发生偏差的情况。
发明内容
针对现有技术存在的缺陷,本发明提供教学视频自动字幕处理方法与系统,其通过将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据,并对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为预设语种的文字片段数据,再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频;可见,该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
本发明提供教学视频自动字幕处理方法,其特征在于,其包括如下步骤:
步骤S1,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
步骤S2,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据;
步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频;
进一步,在所述步骤S1中,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
步骤S101,在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理,从而分别提取得到所述连续图像数据和所述连续声音数据;
步骤S102,以所述同一起始时刻为基准,从所述预设教学视频中提取得到所述播放时间轴信息,并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔;
步骤S103,按照若干所述播放时间间隔,将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据,其中,每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间;
进一步,在所述步骤S2中,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据具体包括,
步骤S201,对若干所述声音片段子数据进行背景噪声过滤去除处理,并识别每一个所述声音片段子数据对应的语种类型;
步骤S202,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据;
步骤S203,对所述语音识别语句和/或词汇集合进行文本编辑,从而将所述语音识别数据转换为对应预设语种的文字片段数据;
进一步,在所述步骤S3中,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括,
步骤S301,确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间,并根据所述文字字数总量和所述持续时间,确定所述文字片段数据进行动态显示时对应的文字显示速度;
步骤S302,根据所述文字显示速度,将所述文字片段数据转换为动态显示播放的字幕片段数据;
步骤S303,根据所述播放时间轴信息,将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列;
步骤S304,将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
在一个实施例中,在所述步骤S202中,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据具体包括,
假设对于给定的一个声音片段子数据S由如下形式构成
s=w1,w2,w3,…,wm (1)
在上述公式(1)中,wi表示第i个声音统计基元、且i=1,2,3,…,m,m表示声音统计基元的总数量;所述声音统计基元对应的文字包括字、词或者短语;
假设n1,n2,n3,…,nm分别表示声音统计基元w1,w2,w3,…,wm各自对应的同音基元数量,wi对应的同音基元是指与所述wi中的声音统计基元发声相同的文字,所述文字为一组或多组;则声音统计基元w1对应的文字取w1对应的第1个同音基元到第n1个同音基元中任一个同音基元的概率P(w1j)为
在上述公式(2)中,j表示声音统计基元w1对应的上述任一个同音基元的序号,其为1至n1中的任一正整数;
声音统计基元w2对应的文字取w2对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w2j)为
在上述公式(3)中,j表示声音统计基元w2的同音基元的序号,其为1至n2中的任一正整数,P(w2j|w1j)表示当所述声音统计基元w2对应的文字取w2对应的上述任一个同音基元的同时,声音统计基元w1对应的文字取w1对应的任一个同音基元的概率中的最大值;
同理,声音统计基元wm对应的文字取wm对应的第1个同音基元到第nm个同音基元中任一个同音基元的概率P(wmj)为:
在上述公式(3)中,j表示声音统计基元wm的同音基元的序号,其为1至nm中的任一正整数,P(wmj|w1jw2j…w(m-1)j)表示当所述声音统计基元wm对应的文字取wm对应的上述任一个同音基元的同时,其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值;
所述声音片段子数据S对应的语音识别数据共有种可能的文字组合,取P(s)最大时对应的文字组合即为所述声音片段子数据S对应的语音识别数据;其中,P(s)=max(P(w1j)P(w2j)…P(wmj))。
在一个实施例中,所述步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,具体包括步骤A1-A2:
步骤A1、将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,形成多个添加有字幕的图像帧片段子数据;
步骤A2、针对每个添加有字幕的图像帧片段子数据,执行如下步骤A21-A26:
步骤A21、对当前添加有字幕的图像帧片段子数据中包括的人物嘴部动作进行分析,确定出所述当前添加有字幕的图像帧片段子数据中嘴部发生动作的目标人物以及目标人物嘴部发生动作时所在的目标图像帧;
步骤A22、获取所述目标图像帧中添加的目标字幕;在当前添加有字幕的图像帧片段子数据对应的声音片段子数据中,获取所述目标字幕所对应的目标声音片段;获取所述目标声音片段对应的目标声音特征;
步骤A23、对所述目标图像帧中的目标人物人脸进行识别,获取所述目标人物的脸部特征;从预设的人物生物特征数据库中,确定所述目标人物的脸部特征对应的声音特征;
步骤A24、判断所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征是否相匹配;如果匹配,则执行步骤A25;如果不匹配,则执行步骤A26;
步骤A25、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征匹配,则根据所述目标人物的脸部特征从预设的人物信息数据库中查找所述目标人物对应的目标客户端,将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给所述目标客户端,由所述目标客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述目标人物,由所述目标人物对所述目标字幕进行校正,并由所述目标客户端接收所述目标人物输入的对所述目标字幕的校正结果,由所述目标客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正;
步骤A26、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征不匹配,则将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给预设客户端,由所述预设客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述预设客户端的用户,由预设客户端的用户对所述目标字幕进行校正,并由所述预设客户端接收所述用户输入的对所述目标字幕的校正结果,由所述预设客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正。
本发明提供教学视频自动字幕处理系统,其包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块;其中,
所述教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据;
所述图像/声音数据划分模块用于按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
所述语音识别与转换模块用于对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据;
所述文字片段生成模块用于将所述语音识别数据转换为预设语种的文字片段数据;
所述字幕片段生成模块用于将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据;
所述字幕片段添加模块用于根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中;
所述图像/声音重组合模块用于将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频;
进一步,所述教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理,从而分别提取得到所述连续图像数据和所述连续声音数据;
所述图像/声音数据划分模块按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
以所述同一起始时刻为基准,从所述预设教学视频中提取得到所述播放时间轴信息,并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔,
再按照若干所述播放时间间隔,将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据,其中,每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间;
进一步,所述语音识别与转换模块对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据具体包括,
对若干所述声音片段子数据进行背景噪声过滤去除处理,并识别每一个所述声音片段子数据对应的语种类型,
再根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据;
所述文字片段生成模块将所述语音识别数据转换为预设语种的文字片段数据具体包括对所述语音识别语句和/或词汇集合进行文本编辑,从而将所述语音识别数据转换为对应预设语种的文字片段数据;
进一步,所述字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括,
确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间,并根据所述文字字数总量和所述持续时间,确定所述文字片段数据进行动态显示时对应的文字显示速度;
再根据所述文字显示速度,将所述文字片段数据转换为动态显示播放的字幕片段数据;
所述字幕片段添加模块根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中具体包括根据所述播放时间轴信息,将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列;
所述图像/声音重组合模块将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
相比于现有技术,该教学视频自动字幕处理方法与系统通过将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据,并对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为预设语种的文字片段数据,再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频;可见,该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的教学视频自动字幕处理方法的流程示意图。
图2为本发明提供的教学视频自动字幕处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的教学视频自动字幕处理方法的流程示意图。该教学视频自动字幕处理方法用于服务器,包括如下步骤:
步骤S1,将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
步骤S2,对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为预设语种的文字片段数据;
步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频。
该教学视频自动字幕处理方法通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
优选地,在该步骤S1中,将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
步骤S101,在同一起始时刻对该预设教学视频进行图像-声音数据分离处理,从而分别提取得到该连续图像数据和该连续声音数据;
步骤S102,以该同一起始时刻为基准,从该预设教学视频中提取得到该播放时间轴信息,并将该播放时间轴信息划分为若干具有相同长度的播放时间间隔;
步骤S103,按照若干该播放时间间隔,将该连续图像数据和该连续声音数据分别划分为若干该图像帧片段子数据和若干该声音片段子数据,其中,每一个该图像帧片段子数据和每一个该声音片段子数据均具有相同的持续时间。
通过以同一起始时刻为基准,对预设教学视频进行图像信息和声音信息的分离处理以及图像信息和声音信息的划分处理,以此得到相应的图像帧片段子数据和声音片段子数据,这样能够有效地对图像信息和声音信息进行区分化分析处理,从而提高对教师视频分析的针对性和避免发生数据分析混乱的情况。
优选地,在该步骤S2中,对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为预设语种的文字片段数据具体包括,
步骤S201,对若干该声音片段子数据进行背景噪声过滤去除处理,并识别每一个该声音片段子数据对应的语种类型;
步骤S202,根据该语种类型,对每一个该声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为该语音识别数据;
步骤S203,对该语音识别语句和/或词汇集合进行文本编辑,从而将该语音识别数据转换为对应预设语种的文字片段数据。
通过对该声音片段子数据进行背景噪声降噪处理和语种匹配的语音识别处理,能够保证对声音片段子数据的识别准确性以及提高该文字片段数据的语义准确性。
优选地,在该步骤S3中,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括,
步骤S301,确定该文字片段数据包含的文字字数总量和该文字片段数据对应的声音片段子数据的持续时间,并根据该文字字数总量和该持续时间,确定该文字片段数据进行动态显示时对应的文字显示速度;
步骤S302,根据该文字显示速度,将该文字片段数据转换为动态显示播放的字幕片段数据;
步骤S303,根据该播放时间轴信息,将所有该图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将该字幕片段数据序列依序添加至该图像帧片段子数据序列;
步骤S304,将该图像帧片段子数据序列中的图像帧片段子数据和若干该声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
通过字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,能够保证该字幕片段数据能够按照教学视频自身的播放进度融合到教学视频中,从而实现教学视频的智能化和高效化字幕配置。
在一个实施例中,在所述步骤S202中,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据具体包括,
假设对于给定的一个声音片段子数据S由如下形式构成
s=w1,w2,w3,…,wm (1)
在上述公式(1)中,wi表示第i个声音统计基元、且i=1,2,3,…,m,m表示声音统计基元的总数量;所述声音统计基元对应的文字包括字、词或者短语;
假设n1,n2,n3,…,nm分别表示声音统计基元w1,w2,w3,…,wm各自对应的同音基元数量,wi对应的同音基元是指与所述wi中的声音统计基元发声相同的文字,所述文字为一组或多组;则声音统计基元w1对应的文字取w1对应的第1个同音基元到第n1个同音基元中任一个同音基元的概率P(w1j)为
在上述公式(2)中,j表示声音统计基元w1对应的上述任一个同音基元的序号,其为1至n1中的任一正整数;
声音统计基元w2对应的文字取w2对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w2j)为:
在上述公式(3)中,j表示声音统计基元w2的同音基元的序号,其为1至n2中的任一正整数,P(w2j|w1j)表示当所述声音统计基元w2对应的文字取w2对应的上述任一个同音基元的同时,声音统计基元w1对应的文字取w1对应的任一个同音基元的概率中的最大值;例如“工商银行”,拼音是gong shang yin hang,如果第一个字是“工”,假如第二个字是shang的同音字有“商”、“上”、“伤”,那么就是算P(商|工)、P(上|工)、P(伤|工)在语料库中的概率,最大的那个就是前述概率中的最大值;
同理,声音统计基元wm对应的文字取wm对应的第1个同音基元到第nm个同音基元中任一个同音基元的概率P(wmj)为:
在上述公式(3)中,j表示声音统计基元wm的同音基元的序号,其为1至nm中的任一正整数,P(wmj|w1jw2j…w(m-1)j)表示当所述声音统计基元wm对应的文字取wm对应的上述任一个同音基元的同时,其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值;
所述声音片段子数据S对应的语音识别数据共有种可能的文字组合,取P(s)最大时对应的文字组合即为所述声音片段子数据S对应的语音识别数据;其中,P(s)=max(P(w1j)P(w2j)…P(wmj))。
上述过程考虑到汉语中存在数量庞大的同音字问题,为了提升语音识别的准确性,最大限度减少音同别字的情况发生,其能够提高语音识别的准确性和最大限度地降低同音字误识别的情况发生。
在一个实施例中,所述步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,具体包括步骤A1-A2:
步骤A1、将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,形成多个添加有字幕的图像帧片段子数据;
步骤A2、针对每个添加有字幕的图像帧片段子数据,执行如下步骤A21-A26:
步骤A21、对当前添加有字幕的图像帧片段子数据中包括的人物嘴部动作进行分析,确定出所述当前添加有字幕的图像帧片段子数据中嘴部发生动作的目标人物以及目标人物嘴部发生动作时所在的目标图像帧;
步骤A22、获取所述目标图像帧中添加的目标字幕;在当前添加有字幕的图像帧片段子数据对应的声音片段子数据中,获取所述目标字幕所对应的目标声音片段;获取所述目标声音片段对应的目标声音特征;
步骤A23、对所述目标图像帧中的目标人物人脸进行识别,获取所述目标人物的脸部特征;从预设的人物生物特征数据库中,确定所述目标人物的脸部特征对应的声音特征;
步骤A24、判断所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征是否相匹配;如果匹配,则执行步骤A25;如果不匹配,则执行步骤A26;
步骤A25、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征匹配,则根据所述目标人物的脸部特征从预设的人物信息数据库中查找所述目标人物对应的目标客户端,将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给所述目标客户端,由所述目标客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述目标人物,由所述目标人物对所述目标字幕进行校正,并由所述目标客户端接收所述目标人物输入的对所述目标字幕的校正结果,由所述目标客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正;
步骤A26、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征不匹配,则将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给预设客户端,由所述预设客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述预设客户端的用户(可以是对视频进行统一处理的视频处理工作人员),由预设客户端的用户对所述目标字幕进行校正,并由所述预设客户端接收所述用户输入的对所述目标字幕的校正结果,由所述预设客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正。
上述技术方案的有益效果为:当教学视频中包括多个人物说话,则可以按照上述技术方案分别向每个人物发送其自身说话时对应的视频片段及其字幕,由每个人物对自身说话时对应的字幕进行校正,使得可以各人负责各人所对应的字幕校正,使得校正准确率更高;同时,如果是对于不知道是哪个人物说话产生的字幕,则由对视频进行统一处理的视频处理工作人员统一进行处理(对应步骤A26),经过上述手段,不仅可以提高字幕校正的准确率,而且由于字幕由多人配合一起进行校正,还可以提高校正的效率。
参阅图2,为本发明实施例提供的教学视频自动字幕处理系统的结构示意图。该教学视频自动字幕处理系统包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块;用于服务器,其中,
该教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据;
该图像/声音数据划分模块用于按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
该语音识别与转换模块用于对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据;
该文字片段生成模块用于将该语音识别数据转换为预设语种的文字片段数据;
该字幕片段生成模块用于将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据;
该字幕片段添加模块用于根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中;
该图像/声音重组合模块用于将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频。
该教学视频自动字幕处理系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
优选地,该教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对该预设教学视频进行图像-声音数据分离处理,从而分别提取得到该连续图像数据和该连续声音数据;
该图像/声音数据划分模块按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
以该同一起始时刻为基准,从该预设教学视频中提取得到该播放时间轴信息,并将该播放时间轴信息划分为若干具有相同长度的播放时间间隔,
再按照若干该播放时间间隔,将该连续图像数据和该连续声音数据分别划分为若干该图像帧片段子数据和若干该声音片段子数据,其中,每一个该图像帧片段子数据和每一个该声音片段子数据均具有相同的持续时间。
通过以同一起始时刻为基准,对预设教学视频进行图像信息和声音信息的分离处理以及图像信息和声音信息的划分处理,以此得到相应的图像帧片段子数据和声音片段子数据,这样能够有效地对图像信息和声音信息进行区分化分析处理,从而提高对教师视频分析的针对性和避免发生数据分析混乱的情况。
优选地,该语音识别与转换模块对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据具体包括,
对若干该声音片段子数据进行背景噪声过滤去除处理,并识别每一个该声音片段子数据对应的语种类型,
再根据该语种类型,对每一个该声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为该语音识别数据;
该文字片段生成模块将该语音识别数据转换为预设语种的文字片段数据具体包括对该语音识别语句和/或词汇集合进行文本编辑,从而将该语音识别数据转换为对应预设语种的文字片段数据。
通过对该声音片段子数据进行背景噪声降噪处理和语种匹配的语音识别处理,能够保证对声音片段子数据的识别准确性以及提高该文字片段数据的语义准确性。
优选地,该字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括,
确定该文字片段数据包含的文字字数总量和该文字片段数据对应的声音片段子数据的持续时间,并根据该文字字数总量和该持续时间,确定该文字片段数据进行动态显示时对应的文字显示速度;
再根据该文字显示速度,将该文字片段数据转换为动态显示播放的字幕片段数据;
该字幕片段添加模块根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中具体包括根据该播放时间轴信息,将所有该图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将该字幕片段数据序列依序添加至该图像帧片段子数据序列;
该图像/声音重组合模块将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括将该图像帧片段子数据序列中的图像帧片段子数据和若干该声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
通过字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,能够保证该字幕片段数据能够按照教学视频自身的播放进度融合到教学视频中,从而实现教学视频的智能化和高效化字幕配置。
从上述实施例的内容可知,该教学视频自动字幕处理方法与系统通过将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据,并对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为预设语种的文字片段数据,再将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据该播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干该图像帧片段子数据与若干该声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频;可见,该教学视频自动字幕处理方法与系统通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.教学视频自动字幕处理方法,其特征在于,用于服务器,其包括如下步骤:
步骤S1,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
步骤S2,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据;
步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频。
2.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S1中,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
步骤S101,在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理,从而分别提取得到所述连续图像数据和所述连续声音数据;
步骤S102,以所述同一起始时刻为基准,从所述预设教学视频中提取得到所述播放时间轴信息,并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔;
步骤S103,按照若干所述播放时间间隔,将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据,其中,每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间。
3.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S2中,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据具体包括,
步骤S201,对若干所述声音片段子数据进行背景噪声过滤去除处理,并识别每一个所述声音片段子数据对应的语种类型;
步骤S202,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据;
步骤S203,对所述语音识别语句和/或词汇集合进行文本编辑,从而将所述语音识别数据转换为对应预设语种的文字片段数据。
4.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S3中,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括,
步骤S301,确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间,并根据所述文字字数总量和所述持续时间,确定所述文字片段数据进行动态显示时对应的文字显示速度;
步骤S302,根据所述文字显示速度,将所述文字片段数据转换为动态显示播放的字幕片段数据;
步骤S303,根据所述播放时间轴信息,将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列;
步骤S304,将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
5.如权利要求3所述的方法,其特征在于,
在所述步骤S202中,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据具体包括,
假设对于给定的一个声音片段子数据S由如下形式构成
s=w1,w2,w3,…,wm (1)
在上述公式(1)中,wi表示第i个声音统计基元、且i=1,2,3,…,m,m表示声音统计基元的总数量;所述声音统计基元对应的文字包括字、词或者短语;
假设n1,n2,n3,…,nm分别表示声音统计基元w1,w2,w3,…,wm各自对应的同音基元数量,wi对应的同音基元是指与所述wi中的声音统计基元发声相同的文字,所述文字为一组或多组;则声音统计基元w1对应的文字取w1对应的第1个同音基元到第n1个同音基元中任一个同音基元的概率P(w1j)为
在上述公式(2)中,j表示声音统计基元w1对应的上述任一个同音基元的序号,其为1至n1中的任一正整数;
声音统计基元w2对应的文字取w2对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w2j)为:
在上述公式(3)中,j表示声音统计基元w2的同音基元的序号,其为1至n2中的任一正整数,P(w2j|w1j)表示当所述声音统计基元w2对应的文字取w2对应的上述任一个同音基元的同时,声音统计基元w1对应的文字取w1对应的任一个同音基元的概率中的最大值;
同理,声音统计基元wm对应的文字取wm对应的第1个同音基元到第nm个同音基元中任一个同音基元的概率P(wmj)为:
在上述公式(3)中,j表示声音统计基元wm的同音基元的序号,其为1至nm中的任一正整数,P(wmj|w1jw2j…w(m-1)j)表示当所述声音统计基元wm对应的文字取wm对应的上述任一个同音基元的同时,其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值;
6.如权利要求1所述的方法,其特征在于,
所述步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,具体包括步骤A1-A2:
步骤A1、将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,形成多个添加有字幕的图像帧片段子数据;
步骤A2、针对每个添加有字幕的图像帧片段子数据,执行如下步骤A21-A26:
步骤A21、对当前添加有字幕的图像帧片段子数据中包括的人物嘴部动作进行分析,确定出所述当前添加有字幕的图像帧片段子数据中嘴部发生动作的目标人物以及目标人物嘴部发生动作时所在的目标图像帧;
步骤A22、获取所述目标图像帧中添加的目标字幕;在当前添加有字幕的图像帧片段子数据对应的声音片段子数据中,获取所述目标字幕所对应的目标声音片段;获取所述目标声音片段对应的目标声音特征;
步骤A23、对所述目标图像帧中的目标人物人脸进行识别,获取所述目标人物的脸部特征;从预设的人物生物特征数据库中,确定所述目标人物的脸部特征对应的声音特征;
步骤A24、判断所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征是否相匹配;如果匹配,则执行步骤A25;如果不匹配,则执行步骤A26;
步骤A25、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征匹配,则根据所述目标人物的脸部特征从预设的人物信息数据库中查找所述目标人物对应的目标客户端,将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给所述目标客户端,由所述目标客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述目标人物,由所述目标人物对所述目标字幕进行校正,并由所述目标客户端接收所述目标人物输入的对所述目标字幕的校正结果,由所述目标客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正;
步骤A26、如果所述步骤A22确定出的目标声音特征与所述步骤A23确定出的所述目标人物的脸部特征对应的声音特征不匹配,则将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段发送给预设客户端,由所述预设客户端将所述添加有所述目标字幕的目标图像帧以及所述目标字幕所对应的目标声音片段播放给所述预设客户端的用户,由预设客户端的用户对所述目标字幕进行校正,并由所述预设客户端接收所述用户输入的对所述目标字幕的校正结果,由所述预设客户端将对所述目标字幕的校正结果发送给所述服务器;所述服务器接收到所述目标字幕的校正结果后,对所述当前添加有字幕的图像帧片段子数据中的目标图像帧中的目标字幕进行校正。
7.教学视频自动字幕处理系统,其特征在于,其包括教学视频拆解模块、图像/声音数据划分模块、语音识别与转换模块、文字片段生成模块、字幕片段生成模块、字幕片段添加模块和图像/声音重组合模块;其中,所述教学视频拆解模块用于将预设教学视频拆解为连续图像数据和连续声音数据;
所述图像/声音数据划分模块用于按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
所述语音识别与转换模块用于对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据;
所述文字片段生成模块用于将所述语音识别数据转换为预设语种的文字片段数据;
所述字幕片段生成模块用于将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据;
所述字幕片段添加模块用于根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中;
所述图像/声音重组合模块用于将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频。
8.如权利要求7所述的教学视频自动字幕处理系统,其特征在于:
所述教学视频拆解模块将预设教学视频拆解为连续图像数据和连续声音数据具体包括在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理,从而分别提取得到所述连续图像数据和所述连续声音数据;所述图像/声音数据划分模块按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
以所述同一起始时刻为基准,从所述预设教学视频中提取得到所述播放时间轴信息,并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔,
再按照若干所述播放时间间隔,将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据,其中,每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间。
9.如权利要求7所述的教学视频自动字幕处理系统,其特征在于:
所述语音识别与转换模块对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据具体包括,对若干所述声音片段子数据进行背景噪声过滤去除处理,并识别每一个所述声音片段子数据对应的语种类型,
再根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据;
所述文字片段生成模块将所述语音识别数据转换为预设语种的文字片段数据具体包括对所述语音识别语句和/或词汇集合进行文本编辑,从而将所述语音识别数据转换为对应预设语种的文字片段数据;
或者
所述字幕片段生成模块将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据具体包括,
确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间,并根据所述文字字数总量和所述持续时间,确定所述文字片段数据进行动态显示时对应的文字显示速度;
再根据所述文字显示速度,将所述文字片段数据转换为动态显示播放的字幕片段数据;
所述字幕片段添加模块根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中具体包括根据所述播放时间轴信息,将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列;
所述图像/声音重组合模块将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891570.XA CN111986656B (zh) | 2020-08-31 | 2020-08-31 | 教学视频自动字幕处理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010891570.XA CN111986656B (zh) | 2020-08-31 | 2020-08-31 | 教学视频自动字幕处理方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986656A true CN111986656A (zh) | 2020-11-24 |
CN111986656B CN111986656B (zh) | 2021-07-30 |
Family
ID=73441100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010891570.XA Active CN111986656B (zh) | 2020-08-31 | 2020-08-31 | 教学视频自动字幕处理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986656B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954434A (zh) * | 2021-02-26 | 2021-06-11 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN113207032A (zh) * | 2021-04-29 | 2021-08-03 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频增加字幕的系统及方法 |
CN113490027A (zh) * | 2021-07-07 | 2021-10-08 | 武汉亿融信科科技有限公司 | 一种短视频制作生成处理方法、设备及计算机存储介质 |
CN114245205A (zh) * | 2022-02-23 | 2022-03-25 | 达维信息技术(深圳)有限公司 | 基于数字资产管理的视频数据加工方法和系统 |
CN115880737A (zh) * | 2021-09-26 | 2023-03-31 | 天翼爱音乐文化科技有限公司 | 一种基于降噪自学习的字幕生成方法、系统、设备及介质 |
CN116405621A (zh) * | 2023-05-04 | 2023-07-07 | 北京思想天下教育科技有限公司 | 一种基于大数据云平台的线上线下联动学习系统 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN104219459A (zh) * | 2014-09-30 | 2014-12-17 | 上海摩软通讯技术有限公司 | 视频语言翻译方法、系统及智能显示设备 |
US20140379337A1 (en) * | 2010-12-01 | 2014-12-25 | At&T Intellectual Property I, L.P. | Method and system for testing closed caption content of video assets |
CN104254022A (zh) * | 2014-09-25 | 2014-12-31 | 小米科技有限责任公司 | 字幕显示方法和装置 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN106385548A (zh) * | 2016-09-05 | 2017-02-08 | 努比亚技术有限公司 | 一种移动终端及生成视频字幕的方法 |
CN107071512A (zh) * | 2017-01-16 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种配音方法、装置及系统 |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
KR20180119101A (ko) * | 2017-04-24 | 2018-11-01 | 주식회사 소리보기 | 방송자막 제작 시스템 및 방법 |
US20190104259A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Media editing application with anchored timeline for captions and subtitles |
CN110035326A (zh) * | 2019-04-04 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 字幕生成、基于字幕的视频检索方法、装置和电子设备 |
CN110149558A (zh) * | 2018-08-02 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种基于内容识别的视频播放实时推荐方法及系统 |
CN110166816A (zh) * | 2019-05-29 | 2019-08-23 | 上海乂学教育科技有限公司 | 用于人工智能教育的基于语音识别的视频编辑方法和系统 |
EP3579570A1 (en) * | 2018-06-04 | 2019-12-11 | NCSoft Corporation | Method and apparatus for generating caption |
US20200020319A1 (en) * | 2018-07-16 | 2020-01-16 | Microsoft Technology Licensing, Llc | Eyes-off training for automatic speech recognition |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN111061915A (zh) * | 2019-12-17 | 2020-04-24 | 中国科学技术大学 | 视频人物关系识别方法 |
US10672383B1 (en) * | 2018-12-04 | 2020-06-02 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN111464876A (zh) * | 2020-03-31 | 2020-07-28 | 安徽听见科技有限公司 | 翻译文本字幕流式展示方法、装置以及设备 |
-
2020
- 2020-08-31 CN CN202010891570.XA patent/CN111986656B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US20140379337A1 (en) * | 2010-12-01 | 2014-12-25 | At&T Intellectual Property I, L.P. | Method and system for testing closed caption content of video assets |
CN104254022A (zh) * | 2014-09-25 | 2014-12-31 | 小米科技有限责任公司 | 字幕显示方法和装置 |
CN104219459A (zh) * | 2014-09-30 | 2014-12-17 | 上海摩软通讯技术有限公司 | 视频语言翻译方法、系统及智能显示设备 |
CN105245917A (zh) * | 2015-09-28 | 2016-01-13 | 徐信 | 一种多媒体语音字幕生成的系统和方法 |
CN106385548A (zh) * | 2016-09-05 | 2017-02-08 | 努比亚技术有限公司 | 一种移动终端及生成视频字幕的方法 |
CN107071512A (zh) * | 2017-01-16 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种配音方法、装置及系统 |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
KR20180119101A (ko) * | 2017-04-24 | 2018-11-01 | 주식회사 소리보기 | 방송자막 제작 시스템 및 방법 |
US20190104259A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Media editing application with anchored timeline for captions and subtitles |
EP3579570A1 (en) * | 2018-06-04 | 2019-12-11 | NCSoft Corporation | Method and apparatus for generating caption |
US20200020319A1 (en) * | 2018-07-16 | 2020-01-16 | Microsoft Technology Licensing, Llc | Eyes-off training for automatic speech recognition |
CN110149558A (zh) * | 2018-08-02 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 一种基于内容识别的视频播放实时推荐方法及系统 |
US10672383B1 (en) * | 2018-12-04 | 2020-06-02 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110035326A (zh) * | 2019-04-04 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 字幕生成、基于字幕的视频检索方法、装置和电子设备 |
CN110166816A (zh) * | 2019-05-29 | 2019-08-23 | 上海乂学教育科技有限公司 | 用于人工智能教育的基于语音识别的视频编辑方法和系统 |
CN110933485A (zh) * | 2019-10-21 | 2020-03-27 | 天脉聚源(杭州)传媒科技有限公司 | 一种视频字幕生成方法、系统、装置和存储介质 |
CN111061915A (zh) * | 2019-12-17 | 2020-04-24 | 中国科学技术大学 | 视频人物关系识别方法 |
CN111464876A (zh) * | 2020-03-31 | 2020-07-28 | 安徽听见科技有限公司 | 翻译文本字幕流式展示方法、装置以及设备 |
Non-Patent Citations (5)
Title |
---|
ABHINAV MATHUR,ET AL.: "Generating Subtitles Automatically using Audio Extraction and Speech Recognition", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE&COMMUNICATION TECHNOLOGY》 * |
RUCHA DESHPANDE,TAYFUN TUNA,ET AL.: "A crowdsourcing caption editor for educational videos", 《2014 IEEE FRONTIERS IN EDUCATION CONFERENCE (FIE) PROCEEDINGS》 * |
周张萍: "面向课堂教学的字幕生成关键技术研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
李雪龙等: "数字视频中标题文字的检测与提取", 《北京电子科技学院学报》 * |
王敏等: "教学视频的文本语义镜头分割和标注", 《数据采集与处理》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112954434A (zh) * | 2021-02-26 | 2021-06-11 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN112954434B (zh) * | 2021-02-26 | 2023-07-04 | 北京奇艺世纪科技有限公司 | 字幕处理方法、系统、电子设备和存储介质 |
CN113207032A (zh) * | 2021-04-29 | 2021-08-03 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频增加字幕的系统及方法 |
CN113490027A (zh) * | 2021-07-07 | 2021-10-08 | 武汉亿融信科科技有限公司 | 一种短视频制作生成处理方法、设备及计算机存储介质 |
CN115880737A (zh) * | 2021-09-26 | 2023-03-31 | 天翼爱音乐文化科技有限公司 | 一种基于降噪自学习的字幕生成方法、系统、设备及介质 |
CN115880737B (zh) * | 2021-09-26 | 2024-04-19 | 天翼爱音乐文化科技有限公司 | 一种基于降噪自学习的字幕生成方法、系统、设备及介质 |
CN114245205A (zh) * | 2022-02-23 | 2022-03-25 | 达维信息技术(深圳)有限公司 | 基于数字资产管理的视频数据加工方法和系统 |
CN114245205B (zh) * | 2022-02-23 | 2022-05-24 | 达维信息技术(深圳)有限公司 | 基于数字资产管理的视频数据加工方法和系统 |
CN116405621A (zh) * | 2023-05-04 | 2023-07-07 | 北京思想天下教育科技有限公司 | 一种基于大数据云平台的线上线下联动学习系统 |
CN116405621B (zh) * | 2023-05-04 | 2024-01-26 | 北京思想天下教育科技有限公司 | 一种基于大数据云平台的线上线下联动学习系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111986656B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986656B (zh) | 教学视频自动字幕处理方法与系统 | |
US7676373B2 (en) | Displaying text of speech in synchronization with the speech | |
CN111968649A (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN110705254B (zh) | 文本断句方法、装置、电子设备和存储介质 | |
JP5787780B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
US20160012751A1 (en) | Comprehension assistance system, comprehension assistance server, comprehension assistance method, and computer-readable recording medium | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
CN109584906B (zh) | 口语发音评测方法、装置、设备及存储设备 | |
JP2018033048A (ja) | メタデータ生成システム | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN113450774A (zh) | 一种训练数据的获取方法及装置 | |
CN111415128A (zh) | 控制会议的方法、系统、装置、设备和介质 | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
CN112541324A (zh) | 一种标点符号添加方法、装置及电子设备 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
WO2004093078A1 (en) | Process for adding subtitles to video content | |
JP4538618B2 (ja) | 字幕番組制作システムにおける表示単位字幕文の自動生成方法 | |
JP5243886B2 (ja) | 字幕出力装置、字幕出力方法及びプログラム | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
CN114203180A (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
JP2003186491A (ja) | 電子化テキスト作成支援システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20221020 Granted publication date: 20210730 |
|
PP01 | Preservation of patent right |