CN110166816A - 用于人工智能教育的基于语音识别的视频编辑方法和系统 - Google Patents

用于人工智能教育的基于语音识别的视频编辑方法和系统 Download PDF

Info

Publication number
CN110166816A
CN110166816A CN201910458288.XA CN201910458288A CN110166816A CN 110166816 A CN110166816 A CN 110166816A CN 201910458288 A CN201910458288 A CN 201910458288A CN 110166816 A CN110166816 A CN 110166816A
Authority
CN
China
Prior art keywords
video
file
manuscript
speech recognition
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910458288.XA
Other languages
English (en)
Other versions
CN110166816B (zh
Inventor
崔炜
王鑫
孙丽英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yixue Education Technology Co Ltd
Original Assignee
Shanghai Yixue Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yixue Education Technology Co Ltd filed Critical Shanghai Yixue Education Technology Co Ltd
Priority to CN201910458288.XA priority Critical patent/CN110166816B/zh
Publication of CN110166816A publication Critical patent/CN110166816A/zh
Application granted granted Critical
Publication of CN110166816B publication Critical patent/CN110166816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了用于人工智能教育的基于语音识别的视频编辑方法,包括(1)、输入教学文稿并将其转化为系统可识别的脚本文件;(2)、输入原始教学视频素材文件,对原始教学视频素材文件所包含的音频帧进行识别,识别出声纹满足预设条件的目标音频帧;(3)、将语音识别后的视频文件与脚本文件进行对照,确定不符合教学文稿的包含目标音频在内的视频片段;(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减;(5)、将符合教学文稿的音频在内的视频片段进行自动渲染,合成为一个完整视频;(6)、输出合成后的完整视频。本发明还公开了用于人工智能教育的基于语音识别的视频编辑系统。

Description

用于人工智能教育的基于语音识别的视频编辑方法和系统
技术领域
本发明涉及一种视频编辑方法及系统,尤其涉及的是用于人工智能教育的基于语音识别的视频编辑方法和系统。
背景技术
目前,随着科技发展、教育理念变革以及用户教育需求升级和生活方式转变,人工智能教育规模的不断扩大,人工智能教育模式越来越广泛地被社会所接受,尤其是中小学教育领域,人工智能教育可以突破时间、空间的限制,为更多孩子提供优质教育资源,在弥补教育资源分配不均,提高教育公平性方面发挥着重要作用。
人工智能教育的多种教学模式中,在教学内容输出这一部分一般采用题库、录播视频、教师直播等方式,其中录播视频因其可以反复使用、成本较低、方便管理而被广泛使用。随着教育理念和用户需求的升级,以及视频编辑制作技术的完善,教学知识点拆分越来越细化,教学录播视频逐渐呈现出这些特征:时长变短、数量倍增、同层级知识点的教学视频中部分内容相同。
教学录播视频在制作时,一般分为四步:一、教研人员根据知识图谱撰写设计教学文稿,即知识点讲解的具体逐字逐句的文案,包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿等。二、出镜教师根据教学文稿进行视频录制,拍摄大量视频素材。三、视频编辑制作人员根据教学文稿剪辑制作视频。四、教研质检人员审核教学视频是否合格,审核通过安排网站上线。
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),可以将人类的语音中的词汇内容转换为计算机可读的输入。
由于教学知识点拆分越来越细致,出镜老师需要在短时间内完成大量教学视频的素材录制,不可避免的会出现口误、错别字等讲述内容与教学文稿不一致的情况。如果在录制过程中反复重新录制,会浪费大量时间,造成录制效率低下。而视频编辑制作时,需要大量视频编辑制作人员对视频文件进行简单机械的剪去口误部分,多条视频片段合成一条完整教学视频等工作。这种建立在人工聆听和收看基础上的操作,是一种原始的人工处理方式,需要耗费大量的资源和处理时间,还会因为人为判断等主观原因造成操作失误,为后续视频质量审核增加工作量。
发明内容
发明目的:本发明针对上述现有技术存在的问题做出改进,即本发明公开了用于人工智能教育的基于语音识别的视频编辑方法和系统,实现降低视频编辑对人工依赖的程度,自动对视频文件或视频流进行编辑的技术效果。
技术方案:用于人工智能教育的基于语音识别的视频编辑方法,包括以下步骤:
(1)、输入教学文稿并将其转化为系统可识别的脚本文件,然后进入步骤(2);
(2)、输入原始教学视频素材文件,对原始教学视频素材文件所包含的音频帧进行识别,识别出声纹满足预设条件的目标音频帧,完成后进入步骤(3);
(3)、将语音识别后的视频文件与步骤(1)得到的脚本文件进行对照,确定不符合教学文稿的包含目标音频在内的视频片段,完成后进入步骤(4),其中:
语音识别后的视频文件包含满足预设条件的目标音频帧;
(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减,得到符合教学文稿的音频在内的视频片段,完成后进入步骤(5);
(5)、将步骤(4)得到的符合教学文稿的音频在内的视频片段进行自动渲染,合成为一个完整视频,完成后进入步骤(6);
(6)、输出合成后的完整视频。
进一步地,步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件,其包含多帧视频帧,以及包含与视频帧对应的音频帧。
进一步地,步骤(3)包括:
(31)确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧,然后进入步骤(32);
(32)对照步骤(1)得到的脚本文件,确定时间轴上目标音频前后不符合教学文稿脚本文件的多帧音频,然后进入步骤(33);
(33)确定与不符合教学文稿脚本文件的多帧音频对应的相同时刻的多帧视频帧,即视频片段。
用于人工智能教育的基于语音识别的视频编辑系统,包括:
文本转换系统,用于将教学文稿转换为系统可识别的脚本文件;
语音识别系统,用于对原始教学视频素材文件所包含的音频帧进行识别,识别出预设条件的目标音频帧,其中:
所述原始教学视频素材文件还包含多帧视频帧,以及包含与视频帧对应的音频帧;
自动编辑系统,用于对脚本文件与经过语音识别系统处理的原始教学视频素材文件进行对照,并进行自动剪辑、合成与输出。
进一步地,文本转换系统包括:
教学文稿输入模块,用于输入教研人员撰写的教学文稿;
脚本文件转换模块,用于将教学文稿转换为系统可识别的脚本文件。
更进一步地,教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。
进一步地,语音识别系统包括:
视频文件输入模块,用于输入教学视频文件,包括原始教学视频素材或已经经过剪辑制作的教学视频;
语音识别模块,用于提取视频文件每帧的音频帧的声纹,然后将每帧的音频帧的声纹与一个或多个所述预设声纹进行匹配,如果匹配成功,表示音频帧的声纹满足预设条件,将音频帧识别为目标音频帧;如果匹配不成功,则直接进入下一个工作流程,即对照教学文稿脚本文件对视频文件进行分段。
进一步地,自动编辑系统包括:
确定视频片段模块,用于确定经过语音识别系统处理的原始教学视频素材文件中是否存在符合教学文稿脚本文件的视频片段;
自动剪辑模块,通过对比教学文稿脚本文件和经过语音系统处理的原始教学视频素材文件,删减掉不符合教学文稿的部分,保留符合教学文稿的视频片段;
自动合成模块,将符合教学文稿的视频片段自动进行渲染并合成;
视频输出模块,用于输出合成后的完整教学视频。
有益效果:本发明公开的用于人工智能教育的基于语音识别的视频编辑方法和系统通过语音识别技术,帮助实现教学视频的自动处理,包括自动剪辑和合成,降低教学视频编辑对人工依赖的程度,具有以下有益效果:
1、出镜老师在录制视频素材时,如果出现口误、错别字、表达错误等情况,只需清楚录入“重录”“删掉”等目标音频,即可继续录制,无需反复重新录制,可以有效提高出镜老师的工作效率——老师在录制原始素材时出错了,并录入了“重录”音频。步骤(2)识别出“重录”音频为目标音频帧。步骤(3)确认“重录”音频帧对应的视频帧,并与教学文稿脚本对照,确认出含有“重录”音频的视频片段(该片段与教学文稿不符)。步骤(4)将含有“重录”的视频片段删掉。也就是,老师在录制时出错了,但是他不用担心出错的部分会出现在最终的教学视频中,因为系统会帮他删掉。他只需将出错部分重新录入,然后继续录制。不用从头开始重新录;
2、视频编辑过程中,通过识别视频文件所含音频中是否包含目标音频,可以快速确认视频文件中是否存在需要删减的无效视频片段,并进行自动删减,可以减少视频编辑制作人员人工聆听及人工手动删减视频片段的步骤;
3、视频编辑过程中,通过识别视频文件所含音频并与教学文稿脚本文件进行匹配,可以自动将各符合脚本文件的视频片段合成,并自动输出完整的教学视频。可以减少视频编辑人员的简单机械式操作,提高工作效率。并且,教研人员通过调整教学文稿的内容,即可完成不同视频片段的合成,提高了教学视频内容组合方面的灵活性。
附图说明
图1为本发明公开的用于人工智能教育的基于语音识别的视频编辑方法的流程图;
图2为本发明公开的用于人工智能教育的基于语音识别的视频编辑系统的示意图。
具体实施方式:
下面对本发明的具体实施方式详细说明。
如图1所示,用于人工智能教育的基于语音识别的视频编辑方法,包括以下步骤:
(1)、输入教学文稿并将其转化为系统可识别的脚本文件,然后进入步骤(2);
(2)、输入原始教学视频素材文件,对原始教学视频素材文件所包含的音频帧进行识别,识别出声纹满足预设条件的目标音频帧,完成后进入步骤(3);
(3)、将语音识别后的视频文件与步骤(1)得到的脚本文件进行对照,确定不符合教学文稿的包含目标音频在内的视频片段,完成后进入步骤(4),其中:
语音识别后的视频文件包含满足预设条件的目标音频帧;
(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减,得到符合教学文稿的音频在内的视频片段,完成后进入步骤(5);
本发明中,将视频片段语音信息与教学文稿脚本文件是否匹配作为视频剪辑的触发机制,自动剪辑模块事先已经定义了剪辑操作的具体内容。例如,上述例子中,删减掉在“A”“B”内容之间的含有“重录”这一目标音频在内的视频片段;
(5)、将步骤(4)得到的符合教学文稿的音频在内的视频片段进行自动渲染,合成为一个完整视频,完成后进入步骤(6);
例如,上述例子中,符合教学文稿“A”“B”“C”内容的三个视频片段会自动合成为一个视频;
(6)、输出合成后的完整视频。
进一步地,步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件,其包含多帧视频帧,以及包含与视频帧对应的音频帧。视频帧具有图像数据,而音频帧则具有音频数据。通常情况下,视频帧和音频帧的时间轴是同步的,在此种情况下,视频帧和音频帧按照时间轴对应。对视频文件所包含的音频帧进行识别,识别出满足预设条件的目标音频帧,在具体实现过程中,本发明所属领域的技术人员可以根据实际设置不同的预设条件,由此将不同的音频帧识别目标音频帧,例如,假设预设条件为音频帧的声纹与预先配置的预设“重录”、“删掉”声纹匹配,那么具体就是将声纹与预设声纹匹配的音频帧识别为目标音频帧。
进一步地,步骤(3)包括:
(31)确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧,然后进入步骤(32);
(32)对照步骤(1)得到的脚本文件,确定时间轴上目标音频前后不符合教学文稿脚本文件的多帧音频,然后进入步骤(33);
(33)确定与不符合教学文稿脚本文件的多帧音频对应的相同时刻的多帧视频帧,即视频片段。本步骤可实现,假设教学文稿中含有“A、B、C”三部分内容,对视频文件语音识别后,可确定视频文件在“A”“B”内容之间,存在含有“重录”这一目标音频在内的视频片段。
如图2所示,用于人工智能教育的基于语音识别的视频编辑系统,包括:
文本转换系统,用于将教学文稿转换为系统可识别的脚本文件;
语音识别系统,用于对原始教学视频素材文件所包含的音频帧进行识别,识别出预设条件的目标音频帧,其中:
所述原始教学视频素材文件还包含多帧视频帧,以及包含与视频帧对应的音频帧;
自动编辑系统,用于对脚本文件与经过语音识别系统处理的原始教学视频素材文件进行对照,并进行自动剪辑、合成与输出。
进一步地,文本转换系统包括:
教学文稿输入模块,用于输入教研人员撰写的教学文稿;
脚本文件转换模块,用于将教学文稿转换为系统可识别的脚本文件。
更进一步地,教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。一般为TXT格式。
进一步地,语音识别系统包括:
视频文件输入模块,用于输入教学视频文件,包括原始教学视频素材或已经经过剪辑制作的教学视频;
语音识别模块,用于提取视频文件每帧的音频帧的声纹,然后将每帧的音频帧的声纹与一个或多个所述预设声纹进行匹配,如果匹配成功,表示音频帧的声纹满足预设条件,将音频帧识别为目标音频帧;如果匹配不成功,则直接进入下一个工作流程,即对照教学文稿脚本文件对视频文件进行分段。
进一步地,自动编辑系统包括:
确定视频片段模块,用于确定经过语音识别系统处理的原始教学视频素材文件中是否存在符合教学文稿脚本文件的视频片段;
自动剪辑模块,通过对比教学文稿脚本文件和经过语音系统处理的原始教学视频素材文件,删减掉不符合教学文稿的部分,保留符合教学文稿的视频片段;
自动合成模块,将符合教学文稿的视频片段自动进行渲染并合成;
视频输出模块,用于输出合成后的完整教学视频。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.用于人工智能教育的基于语音识别的视频编辑方法,其特征在于,包括以下步骤:
(1)、输入教学文稿并将其转化为系统可识别的脚本文件,然后进入步骤(2);
(2)、输入原始教学视频素材文件,对原始教学视频素材文件所包含的音频帧进行识别,识别出声纹满足预设条件的目标音频帧,完成后进入步骤(3);
(3)、将语音识别后的视频文件与步骤(1)得到的脚本文件进行对照,确定不符合教学文稿的包含目标音频在内的视频片段,完成后进入步骤(4),其中:
语音识别后的视频文件包含满足预设条件的目标音频帧;
(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减,得到符合教学文稿的音频在内的视频片段,完成后进入步骤(5);
(5)、将步骤(4)得到的符合教学文稿的音频在内的视频片段进行自动渲染,合成为一个完整视频,完成后进入步骤(6);
(6)、输出合成后的完整视频。
2.如权利要求1所述的用于人工智能教育的基于语音识别的视频编辑方法,其特征在于,步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件,其包含多帧视频帧,以及包含与视频帧对应的音频帧。
3.如权利要求1所述的用于人工智能教育的基于语音识别的视频编辑方法,其特征在于,步骤(3)包括:
(31)确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧,然后进入步骤(32);
(32)对照步骤(1)得到的脚本文件,确定时间轴上目标音频前后不符合教学文稿脚本文件的多帧音频,然后进入步骤(33);
(33)确定与不符合教学文稿脚本文件的多帧音频对应的相同时刻的多帧视频帧,即视频片段。
4.用于人工智能教育的基于语音识别的视频编辑系统,其特征在于,包括:
文本转换系统,用于将教学文稿转换为系统可识别的脚本文件;
语音识别系统,用于对原始教学视频素材文件所包含的音频帧进行识别,识别出预设条件的目标音频帧,其中:
所述原始教学视频素材文件还包含多帧视频帧,以及包含与视频帧对应的音频帧;
自动编辑系统,用于对脚本文件与经过语音识别系统处理的原始教学视频素材文件进行对照,并进行自动剪辑、合成与输出。
5.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统,其特征在于,文本转换系统包括:
教学文稿输入模块,用于输入教研人员撰写的教学文稿;
脚本文件转换模块,用于将教学文稿转换为系统可识别的脚本文件。
6.如权利要求5所述的用于人工智能教育的基于语音识别的视频编辑系统,其特征在于,教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。
7.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统,其特征在于,语音识别系统包括:
视频文件输入模块,用于输入教学视频文件,包括原始教学视频素材或已经经过剪辑制作的教学视频;
语音识别模块,用于提取视频文件每帧的音频帧的声纹,然后将每帧的音频帧的声纹与一个或多个所述预设声纹进行匹配,如果匹配成功,表示音频帧的声纹满足预设条件,将音频帧识别为目标音频帧;如果匹配不成功,则直接进入下一个工作流程,即对照教学文稿脚本文件对视频文件进行分段。
8.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统,其特征在于,自动编辑系统包括:
确定视频片段模块,用于确定经过语音识别系统处理的原始教学视频素材文件中是否存在符合教学文稿脚本文件的视频片段;
自动剪辑模块,通过对比教学文稿脚本文件和经过语音系统处理的原始教学视频素材文件,删减掉不符合教学文稿的部分,保留符合教学文稿的视频片段;
自动合成模块,将符合教学文稿的视频片段自动进行渲染并合成;
视频输出模块,用于输出合成后的完整教学视频。
CN201910458288.XA 2019-05-29 2019-05-29 用于人工智能教育的基于语音识别的视频编辑方法和系统 Active CN110166816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458288.XA CN110166816B (zh) 2019-05-29 2019-05-29 用于人工智能教育的基于语音识别的视频编辑方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458288.XA CN110166816B (zh) 2019-05-29 2019-05-29 用于人工智能教育的基于语音识别的视频编辑方法和系统

Publications (2)

Publication Number Publication Date
CN110166816A true CN110166816A (zh) 2019-08-23
CN110166816B CN110166816B (zh) 2020-09-29

Family

ID=67630114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458288.XA Active CN110166816B (zh) 2019-05-29 2019-05-29 用于人工智能教育的基于语音识别的视频编辑方法和系统

Country Status (1)

Country Link
CN (1) CN110166816B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691258A (zh) * 2019-10-30 2020-01-14 中央电视台 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN111666446A (zh) * 2020-05-26 2020-09-15 珠海九松科技有限公司 一种ai自动剪辑视频素材的判断方法和系统
CN111986656A (zh) * 2020-08-31 2020-11-24 上海松鼠课堂人工智能科技有限公司 教学视频自动字幕处理方法与系统
CN113438434A (zh) * 2021-08-26 2021-09-24 视见科技(杭州)有限公司 基于文本的音频/视频重录方法和系统
CN113923479A (zh) * 2021-11-12 2022-01-11 北京百度网讯科技有限公司 音视频剪辑方法和装置
CN113973229A (zh) * 2021-08-11 2022-01-25 上海卓越睿新数码科技股份有限公司 一种处理视频中口误的在线剪辑方法
CN114025234A (zh) * 2021-11-08 2022-02-08 北京高途云集教育科技有限公司 视频编辑方法、装置、电子设备及存储介质
CN115514987A (zh) * 2021-06-23 2022-12-23 视见科技(杭州)有限公司 通过使用脚本注释进行自动叙事视频制作的系统和方法
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN116456164A (zh) * 2023-06-15 2023-07-18 光合新知(北京)科技有限公司 一种教学课程录入编辑系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001524776A (ja) * 1997-11-20 2001-12-04 ニールセン メディア リサーチ インコーポレイテッド 視聴者測定システムのための音声認識ユニット
CN102316361A (zh) * 2011-07-04 2012-01-11 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统
CN105898169A (zh) * 2015-08-19 2016-08-24 乐视网信息技术(北京)股份有限公司 一种视频处理方法及装置
WO2018043138A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001524776A (ja) * 1997-11-20 2001-12-04 ニールセン メディア リサーチ インコーポレイテッド 視聴者測定システムのための音声認識ユニット
CN102316361A (zh) * 2011-07-04 2012-01-11 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统
CN105898169A (zh) * 2015-08-19 2016-08-24 乐视网信息技术(北京)股份有限公司 一种视频处理方法及装置
WO2018043138A1 (ja) * 2016-08-31 2018-03-08 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691258A (zh) * 2019-10-30 2020-01-14 中央电视台 一种节目素材制作方法、装置及计算机存储介质、电子设备
CN111666446A (zh) * 2020-05-26 2020-09-15 珠海九松科技有限公司 一种ai自动剪辑视频素材的判断方法和系统
CN111986656A (zh) * 2020-08-31 2020-11-24 上海松鼠课堂人工智能科技有限公司 教学视频自动字幕处理方法与系统
CN115514987A (zh) * 2021-06-23 2022-12-23 视见科技(杭州)有限公司 通过使用脚本注释进行自动叙事视频制作的系统和方法
CN113973229A (zh) * 2021-08-11 2022-01-25 上海卓越睿新数码科技股份有限公司 一种处理视频中口误的在线剪辑方法
CN113973229B (zh) * 2021-08-11 2023-12-29 上海卓越睿新数码科技股份有限公司 一种处理视频中口误的在线剪辑方法
CN113438434A (zh) * 2021-08-26 2021-09-24 视见科技(杭州)有限公司 基于文本的音频/视频重录方法和系统
CN114025234A (zh) * 2021-11-08 2022-02-08 北京高途云集教育科技有限公司 视频编辑方法、装置、电子设备及存储介质
CN113923479A (zh) * 2021-11-12 2022-01-11 北京百度网讯科技有限公司 音视频剪辑方法和装置
CN115942043A (zh) * 2023-03-03 2023-04-07 南京爱照飞打影像科技有限公司 一种基于ai语音识别的视频碎剪方法与设备
CN116456164A (zh) * 2023-06-15 2023-07-18 光合新知(北京)科技有限公司 一种教学课程录入编辑系统及方法
CN116456164B (zh) * 2023-06-15 2023-08-08 光合新知(北京)科技有限公司 一种教学课程录入编辑系统及方法

Also Published As

Publication number Publication date
CN110166816B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN110166816A (zh) 用于人工智能教育的基于语音识别的视频编辑方法和系统
CN110136691B (zh) 一种语音合成模型训练方法、装置、电子设备及存储介质
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学系统
WO2018227761A1 (zh) 一种教学录播数据修正装置
US20140147095A1 (en) Semi-automatic generation of multimedia content
Schmidt EXMARaLDA and the FOLK tools-two toolsets for transcribing and annotating spoken language.
CN110675853B (zh) 一种基于深度学习的情感语音合成方法及装置
CN109324811B (zh) 一种用于更新教学录播数据的装置
CN106409296A (zh) 基于分核处理技术的语音快速转写校正系统
CN102436807A (zh) 自动生成重读音节语音的方法和系统
Díaz-Cintas et al. Audiovisual translation
CN104900233A (zh) 一种声音与文本全自动匹配对齐的方法
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN116092472A (zh) 一种语音合成方法和合成系统
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
CN111613224A (zh) 一种个性化语音合成方法及装置
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑系统
CN117333339A (zh) 一种互联网在线课程智能化编辑的创建方法
CN111599338B (zh) 一种稳定可控的端到端语音合成方法及装置
CN110728971B (zh) 一种音视频合成方法
CN116403583A (zh) 语音数据处理方法和装置、非易失性存储介质及车辆
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN113572977B (zh) 视频制作方法及装置
CN112151080A (zh) 一种录制和处理训练语料的方法
CN113112988A (zh) 一种基于ai处理的语音合成处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 501A79, No. 2020 Shanxi Road, Xuhui District, Shanghai

Applicant after: Shanghai squirrel classroom Artificial Intelligence Technology Co., Ltd

Address before: Room 501A79, No. 2020 Shanxi Road, Xuhui District, Shanghai

Applicant before: SHANGHAI YIXUE EDUCATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant