CN117033673A - 一种基于人工智能的多媒体内容抽取系统 - Google Patents

一种基于人工智能的多媒体内容抽取系统 Download PDF

Info

Publication number
CN117033673A
CN117033673A CN202310555930.2A CN202310555930A CN117033673A CN 117033673 A CN117033673 A CN 117033673A CN 202310555930 A CN202310555930 A CN 202310555930A CN 117033673 A CN117033673 A CN 117033673A
Authority
CN
China
Prior art keywords
caption
interval
pushing
nodes
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310555930.2A
Other languages
English (en)
Other versions
CN117033673B (zh
Inventor
周志成
林锦兴
罗杰华
黎世民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Bidi Data Technology Co ltd
Original Assignee
Guangzhou Bidi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Bidi Data Technology Co ltd filed Critical Guangzhou Bidi Data Technology Co ltd
Priority to CN202310555930.2A priority Critical patent/CN117033673B/zh
Publication of CN117033673A publication Critical patent/CN117033673A/zh
Application granted granted Critical
Publication of CN117033673B publication Critical patent/CN117033673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • G06F16/447Temporal browsing, e.g. timeline
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于人工智能的多媒体内容抽取系统,包括数据检索模块、抽取处理模块、推送解析模块和推送自选模块,本发明涉及内容抽取技术领域。该基于人工智能的多媒体内容抽取系统,通过将得到的字幕节点的时间差分别与预设的字幕间隔值进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,避免了对整个视频的分析,不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度,通过计算出每个字幕间隔段的难度系数,之后依据难度系数推送给目标学生,使得目标学生可以及时有效地获得想要的抽取视频,提高学生的复习效率,进一步提升用户的体验感。

Description

一种基于人工智能的多媒体内容抽取系统
技术领域
本发明涉及内容抽取技术领域,具体为一种基于人工智能的多媒体内容抽取系统。
背景技术
近年来随着互联网技术的发展,互联网在线教育也有了飞速的发展,通过智能互联实现教育资源共享、利用大数据分析推动教学效率提升。
在学生根据直播课程视频进行理论学习后,学生可能对直播课程内知识点的掌握程度还不够,需要对相关知识点进行复习,虽然目前的直播课程视频可以回放,但是学生不能准确的确定自己不掌握的知识点在直播回放视频中的位置,需要学生自行查找,但是在自行查找过程中,若是观看全部直播回放视频内容,学生不能针对自己的薄弱点进行针对性复习,而且浪费较多时间,若是通过调整直播回放视频的进度条,容易造成相关知识点的查询遗漏,不利于学生自身薄弱点的复习。
因而,如何结合人工智能技术进行多媒体内容抽取在互联网教育中属于重点研究内容,为此,我们提出一种基于人工智能的多媒体内容抽取系统,使得学生可以及时有效地获得想要的抽取视频,提高学生的复习效率,进一步提升用户的体验感。
发明内容
针对现有技术的不足,本发明提供了一种基于人工智能的多媒体内容抽取系统,解决了背景技术中所提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于人工智能的多媒体内容抽取系统,包括:
数据检索模块,用于在直播课程视频的所有弹幕和字幕中,根据目标学生输入关键词检索得到含有关键词的弹幕数据和字幕数据,之后获取含有关键词的弹幕数据和字幕数据在直播课程视频中的时间节点,并分别记作弹幕节点Di和字幕节点Zj,i=1、2、...、n,表示含有关键词的弹幕数据有n个,j=1、2、...、m,表示含有关键词的字幕数据有m个,随后将弹幕发布时间和字幕讲解时间发送至抽取处理模块;其中,关键词为直播课程中的知识点内容,弹幕数据表示在直播课程中,所有学生发出的提问内容,作为弹幕数据;弹幕数据在直播课程视频中的时间节点为学生发出提问内容的时间与自直播课程视频开始时间的时间差;字幕数据表示在直播课程中,通过语音转换文字技术将老师的讲解音频转为文字内容;字幕数据在直播课程视频中的时间节点为讲解音频转为文字内容后,该文字内容当前时间与自直播课程视频开始时间的时间差;
抽取处理模块,用于对所有字幕节点Zj进行从小到大排序,得到顺序单表,随后计算所有邻近的两组字幕节点Zj的时间差ZCj,并将所有时间差ZCj分别与预设的字幕间隔值ZC0进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,同时将字幕间隔段和抽取视频发送至推送解析模块。
优选的,字幕间隔段的具体获取方式如下:
第一步、将所有字幕节点Zj按照从小到大的顺序进行排序,得到所有字幕节点Zj的顺序单表;
第二步、之后按照从前到后的顺序依次计算顺序单表内邻近的两组字幕节点Zj的差值,得到所有邻近的两组字幕节点Zj的时间差ZCj;
第三步、之后将所有时间差ZCj依次分别与预设的字幕间隔值ZC0进行比较,然后获取所有连续的ZCj≤ZC0的所有字幕节点Zj,并将一组连续的ZCj≤ZC0的所有字幕节点Zj划分为一个字幕间隔段,随后得到字幕节点Zj的若干个字幕间隔段。
优选的,抽取视频的具体获得方式为:在各个字幕间隔段中,获取Zj,min和Zj,max,之后根据Zj,min和Zj,max截取直播课程视频中对应时间节点的视频段,作为抽取视频;
其中,Zj,min表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最小的Zj;Zj,max表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最大的Zj。
优选的,一种基于人工智能的多媒体内容抽取系统还包括:
推送解析模块,用于在各个字幕间隔段中,获取Zj,min和Zj,max,并根据Zj,min和Zj,max计算各个字幕间隔段的时长,随后获取各个字幕间隔段内的弹幕数据的数量DSk与获取各个字幕间隔段内语句类型为问句的弹幕数据的数量WSk,并计算出其之间的比值Bk,随后通过计算DSk、WSk和Bk,得到每个字幕间隔段的难度系数Yk,并将难度系数传输至推送自选模块;
推送自选模块,用于目标学生自主选择抽取视频的推送方式,接着根据目标学生选择的推送方式依次将相应的抽取视频推送给目标学生,抽取视频的推送方式包括时间推送、正向难度推送和反向难度推送;
时间推送的具体方式为:
在各个字幕间隔段中,任意获取一个Zj,并将各个字幕间隔段中任意获取的Zj标记为Zj,k,接着将所有字幕节点Zj,k按照从小到大的顺序进行排序,得到时间推送表;
之后抽取处理模块获得的所有抽取视频,按照时间推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
正向难度推送的具体方式为:
首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从小到大的顺序进行排序,得到正向难度推送表;
之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
反向难度推送的具体方式为:
首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从大到小的顺序进行排序,得到正向难度推送表;
之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生。
优选的,难度系数的具体计算方式如下:
步骤一、在各个连续的ZCj≤ZC0的所有字幕节点Zj中,获取Zj,min和Zj,max
之后在各个字幕间隔段中,利用公式C=Zj,max-Zj,min,得到各个字幕间隔段的时长Ck,k=1、2、...、v,表示字幕间隔段的数量为v;
步骤二、在每个字幕间隔段中,获取弹幕节点Di位于相应字幕间隔段内的弹幕数据的数量DSk,接着对该字幕间隔段内的所有弹幕数据逐条导入预先训练的语句类型识别模型中,得到与每条弹幕数据对应的语句类型,随后获取语句类型为问句的弹幕数据的数量WSk;
之后通过Bk=WSk/DSk,得到相应字幕间隔段中的问句弹幕数据数量与相应字幕间隔段中的所有弹幕数据数量的比值Bk;
步骤三、再通过Yk=C1/Ck*Bk*β1+DSk/(DS1+DS1+...+DSv)*β2,得到每个字幕间隔段的难度系数Yk,其中β1和β2为预设比例系数。
有益效果
本发明提供了一种基于人工智能的多媒体内容抽取系统。与现有技术相比具备以下有益效果:
本发明通过数据检索模块获取含有关键词的弹幕数据和字幕数据,随后利用抽取处理模块计算顺序单表中邻近的两组字幕节点的时间差,并将所有字幕节点的时间差分别与预设的字幕间隔值进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,避免了对整个视频的分析,不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度;
本发明通过推送解析模块计算各个字幕间隔段的时长,并通过该字幕间隔段内的弹幕数据的数量与该字幕间隔段内语句类型为问句的弹幕数据的数量计算出其之间的比值,随后再计算出每个字幕间隔段的难度系数,之后依据难度系数推送给目标学生,使得目标学生可以及时有效地获得想要的抽取视频,提高学生的复习效率,进一步提升用户的体验感。
附图说明
图1为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于人工智能的多媒体内容抽取系统,包括:
数据检索模块,用于在直播课程视频的所有弹幕和字幕中,根据目标学生输入关键词检索得到含有关键词的弹幕数据和字幕数据,之后获取含有关键词的弹幕数据和字幕数据在直播课程视频中的时间节点,并分别记作弹幕节点Di和字幕节点Zj,i=1、2、...、n,表示含有关键词的弹幕数据有n个,j=1、2、...、m,表示含有关键词的字幕数据有m个,随后将弹幕发布时间和字幕讲解时间发送至抽取处理模块;
其中,关键词为直播课程中的知识点内容,弹幕数据表示在直播课程中,所有学生发出的提问内容,作为弹幕数据;弹幕数据在直播课程视频中的时间节点为学生发出提问内容的时间与自直播课程视频开始时间的时间差;字幕数据表示在直播课程中,通过语音转换文字技术将老师的讲解音频转为文字内容;字幕数据在直播课程视频中的时间节点为讲解音频转为文字内容后,该文字内容当前时间与自直播课程视频开始时间的时间差;
抽取处理模块,用于对所有字幕节点Zj进行从小到大排序,得到顺序单表,随后计算所有邻近的两组字幕节点Zj的时间差ZCj,并将所有时间差ZCj分别与预设的字幕间隔值ZC0进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,同时将字幕间隔段和抽取视频发送至推送解析模块;
字幕间隔段的具体获取方式如下:
第一步、将所有字幕节点Zj按照从小到大的顺序进行排序,得到所有字幕节点Zj的顺序单表;
第二步、之后按照从前到后的顺序依次计算顺序单表内邻近的两组字幕节点Zj的差值,得到所有邻近的两组字幕节点Zj的时间差ZCj;
第三步、之后将所有时间差ZCj依次分别与预设的字幕间隔值ZC0进行比较,然后获取所有连续的ZCj≤ZC0的所有字幕节点Zj,并将一组连续的ZCj≤ZC0的所有字幕节点Zj划分为一个字幕间隔段,随后得到字幕节点Zj的若干个字幕间隔段;
抽取视频的具体获得方式为:在各个字幕间隔段中,获取Zj,min和Zj,max,之后根据Zj,min和Zj,max截取直播课程视频中对应时间节点的视频段,作为抽取视频;
其中,Zj,min表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最小的Zj;Zj,max表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最大的Zj;
通过数据检索模块获取含有关键词的弹幕数据和字幕数据,随后利用抽取处理模块计算顺序单表中邻近的两组字幕节点的时间差,并将所有字幕节点的时间差分别与预设的字幕间隔值进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,避免了对整个视频的分析,不需要构建复杂的模型或特征向量,更不需要考虑复杂的语法规则,大大降低了抽取评价信息的复杂度;
推送解析模块,用于在各个字幕间隔段中,获取Zj,min和Zj,max,并根据Zj,min和Zj,max计算各个字幕间隔段的时长,随后获取各个字幕间隔段内的弹幕数据的数量DSk与获取各个字幕间隔段内语句类型为问句的弹幕数据的数量WSk,并计算出其之间的比值Bk,随后通过计算DSk、WSk和Bk,得到每个字幕间隔段的难度系数Yk,并将难度系数传输至推送自选模块;
难度系数的具体计算方式如下:
步骤一、在各个连续的ZCj≤ZC0的所有字幕节点Zj中,获取Zj,min和Zj,max
之后在各个字幕间隔段中,利用公式C=Zj,max-Zj,min,得到各个字幕间隔段的时长Ck,k=1、2、...、v,表示字幕间隔段的数量为v;
步骤二、在每个字幕间隔段中,获取弹幕节点Di位于相应字幕间隔段内的弹幕数据的数量DSk,接着对该字幕间隔段内的所有弹幕数据逐条导入预先训练的语句类型识别模型中,得到与每条弹幕数据对应的语句类型,随后获取语句类型为问句的弹幕数据的数量WSk;
通过自然语言处理技术提取出弹幕数据中的学生提问,方便弹幕数据的提取和定位;
之后通过Bk=WSk/DSk,得到相应字幕间隔段中的问句弹幕数据数量与相应字幕间隔段中的所有弹幕数据数量的比值Bk;
步骤三、再通过Yk=C1/Ck*Bk*β1+DSk/(DS1+DS1+...+DSv)*β2,得到每个字幕间隔段的难度系数Yk,其中β1和β2为预设比例系数;
通过推送解析模块计算各个字幕间隔段的时长,并通过该字幕间隔段内的弹幕数据的数量与该字幕间隔段内语句类型为问句的弹幕数据的数量计算出其之间的比值,随后再计算出每个字幕间隔段的难度系数,之后依据难度系数推送给目标学生,使得目标学生可以及时有效地获得想要的抽取视频,提高学生的复习效率,进一步提升用户的体验感;
推送自选模块,用于目标学生自主选择抽取视频的推送方式,接着根据目标学生选择的推送方式依次将相应的抽取视频推送给目标学生,抽取视频的推送方式包括时间推送、正向难度推送和反向难度推送;
时间推送的具体方式为:
在各个字幕间隔段中,任意获取一个Zj,并将各个字幕间隔段中任意获取的Zj标记为Zj,k,接着将所有字幕节点Zj,k按照从小到大的顺序进行排序,得到时间推送表;
之后抽取处理模块获得的所有抽取视频,按照时间推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
该推送方式依据时间顺序对指定知识点内容的抽取视频进行推送,方便目标学生逐步学习相关知识点的内容,适用于对知识点内容不熟悉的学生选择使用,同时方便学生逐步复习;
正向难度推送的具体方式为:
首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从小到大的顺序进行排序,得到正向难度推送表;
之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
该推送方式依据难度系数由低到高的顺序对指定知识点内容的抽取视频进行推送,方便目标学生巩固学习相关知识点中的简单内容,随后方便目标学生加强对相关知识点中复杂内容的学习;
反向难度推送的具体方式为:
首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从大到小的顺序进行排序,得到正向难度推送表;
之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
该推送方式依据难度系数由高到低的顺序对指定知识点内容的抽取视频进行推送,方便目标学生在掌握相关知识点中简单内容的基础上,然后对相关知识点中的复杂内容进行反复加强学习。
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
以上对本发明的一个实施例进行了详细说明,但内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (5)

1.一种基于人工智能的多媒体内容抽取系统,其特征在于,包括:
数据检索模块,用于在直播课程视频的所有弹幕和字幕中,根据目标学生输入关键词检索得到含有关键词的弹幕数据和字幕数据,之后获取含有关键词的弹幕数据和字幕数据在直播课程视频中的时间节点,并分别记作弹幕节点Di和字幕节点Zj,i=1、2、...、n,表示含有关键词的弹幕数据有n个,j=1、2、...、m,表示含有关键词的字幕数据有m个,随后将弹幕发布时间和字幕讲解时间发送至抽取处理模块;其中,关键词为直播课程中的知识点内容,弹幕数据表示在直播课程中,所有学生发出的提问内容,作为弹幕数据;弹幕数据在直播课程视频中的时间节点为学生发出提问内容的时间与自直播课程视频开始时间的时间差;字幕数据表示在直播课程中,通过语音转换文字技术将老师的讲解音频转为文字内容;字幕数据在直播课程视频中的时间节点为讲解音频转为文字内容后,该文字内容当前时间与自直播课程视频开始时间的时间差;
抽取处理模块,用于对所有字幕节点Zj进行从小到大排序,得到顺序单表,随后计算所有邻近的两组字幕节点Zj的时间差ZCj,并将所有时间差ZCj分别与预设的字幕间隔值ZC0进行比较,根据比较结果得到字幕间隔段,然后依据字幕间隔段得到抽取视频,同时将字幕间隔段和抽取视频发送至推送解析模块。
2.根据权利要求1的一种基于人工智能的多媒体内容抽取系统,其特征在于,字幕间隔段的具体获取方式如下:
第一步、将所有字幕节点Zj按照从小到大的顺序进行排序,得到所有字幕节点Zj的顺序单表;
第二步、之后按照从前到后的顺序依次计算顺序单表内邻近的两组字幕节点Zj的差值,得到所有邻近的两组字幕节点Zj的时间差ZCj;
第三步、之后将所有时间差ZCj依次分别与预设的字幕间隔值ZC0进行比较,然后获取所有连续的ZCj≤ZC0的所有字幕节点Zj,并将一组连续的ZCj≤ZC0的所有字幕节点Zj划分为一个字幕间隔段,随后得到字幕节点Zj的若干个字幕间隔段。
3.根据权利要求1的一种基于人工智能的多媒体内容抽取系统,其特征在于,抽取视频的具体获得方式为:在各个字幕间隔段中,获取Zj,min和Zj,max,之后根据Zj,min和Zj,max截取直播课程视频中对应时间节点的视频段,作为抽取视频;
其中,Zj,min表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最小的Zj;Zj,max表示在一个连续的ZCj≤ZC0的所有字幕节点Zj中,值最大的Zj。
4.根据权利要求3的一种基于人工智能的多媒体内容抽取系统,其特征在于,还包括:
推送解析模块,用于在各个字幕间隔段中,获取Zj,min和Zj,max,并根据Zj,min和Zj,max计算各个字幕间隔段的时长,随后获取各个字幕间隔段内的弹幕数据的数量DSk与获取各个字幕间隔段内语句类型为问句的弹幕数据的数量WSk,并计算出其之间的比值Bk,随后通过计算DSk、WSk和Bk,得到每个字幕间隔段的难度系数Yk,并将难度系数传输至推送自选模块;
推送自选模块,用于目标学生自主选择抽取视频的推送方式,接着根据目标学生选择的推送方式依次将相应的抽取视频推送给目标学生,抽取视频的推送方式如下:
时间推送方式:在各个字幕间隔段中,任意获取一个Zj,并将各个字幕间隔段中任意获取的Zj标记为Zj,k,接着将所有字幕节点Zj,k按照从小到大的顺序进行排序,得到时间推送表,之后抽取处理模块获得的所有抽取视频,按照时间推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
正向难度推送方式:首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从小到大的顺序进行排序,得到正向难度推送表,之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生;
反向难度推送方式:首先根据推送解析模块获取所有字幕间隔段的难度系数,并将其按照从大到小的顺序进行排序,得到正向难度推送表,之后抽取处理模块获得的所有抽取视频,按照正向难度推送表内字幕间隔段从前到后的顺序依次将相应抽取视频推送给目标学生。
5.根据权利要求4的一种基于人工智能的多媒体内容抽取系统,其特征在于,难度系数的具体计算方式如下:
步骤一、在各个连续的ZCj≤ZC0的所有字幕节点Zj中,获取Zj,min和Zj,max
之后在各个字幕间隔段中,利用公式C=Zj,max-Zj,min,得到各个字幕间隔段的时长Ck,k=1、2、...、v,表示字幕间隔段的数量为v;
步骤二、在每个字幕间隔段中,获取弹幕节点Di位于相应字幕间隔段内的弹幕数据的数量DSk,接着对该字幕间隔段内的所有弹幕数据逐条导入预先训练的语句类型识别模型中,得到与每条弹幕数据对应的语句类型,随后获取语句类型为问句的弹幕数据的数量WSk;
之后通过Bk=WSk/DSk,得到相应字幕间隔段中的问句弹幕数据数量与相应字幕间隔段中的所有弹幕数据数量的比值Bk;
步骤三、再通过Yk=C1/Ck*Bk*β1+DSk/(DS1+DS1+...+DSv)*β2,得到每个字幕间隔段的难度系数Yk,其中β1和β2为预设比例系数。
CN202310555930.2A 2023-05-16 2023-05-16 一种基于人工智能的多媒体内容抽取系统 Active CN117033673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310555930.2A CN117033673B (zh) 2023-05-16 2023-05-16 一种基于人工智能的多媒体内容抽取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310555930.2A CN117033673B (zh) 2023-05-16 2023-05-16 一种基于人工智能的多媒体内容抽取系统

Publications (2)

Publication Number Publication Date
CN117033673A true CN117033673A (zh) 2023-11-10
CN117033673B CN117033673B (zh) 2024-04-05

Family

ID=88626845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310555930.2A Active CN117033673B (zh) 2023-05-16 2023-05-16 一种基于人工智能的多媒体内容抽取系统

Country Status (1)

Country Link
CN (1) CN117033673B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070253678A1 (en) * 2006-05-01 2007-11-01 Sarukkai Ramesh R Systems and methods for indexing and searching digital video content
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN103838751A (zh) * 2012-11-23 2014-06-04 鸿富锦精密工业(深圳)有限公司 视频内容搜索系统及方法
CN106231428A (zh) * 2016-07-29 2016-12-14 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN108268539A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于文本分析的视频匹配系统
CN110390927A (zh) * 2019-06-28 2019-10-29 北京奇艺世纪科技有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
KR102216065B1 (ko) * 2020-05-04 2021-02-18 호서대학교 산학협력단 동영상 세그먼트에 대해 검색결과를 제공하는 방법
KR20210042852A (ko) * 2020-08-28 2021-04-20 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 재생 노드 위치 확정 방법, 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CN112861750A (zh) * 2021-02-22 2021-05-28 平安科技(深圳)有限公司 基于拐点检测的视频提取方法、装置、设备及介质
CN113099312A (zh) * 2021-03-30 2021-07-09 深圳市多科特文化传媒有限公司 教学视频播放系统
CN114218348A (zh) * 2021-12-13 2022-03-22 平安科技(深圳)有限公司 基于问答文本的直播片段获取方法、装置、设备及介质
CN114925284A (zh) * 2022-06-16 2022-08-19 江苏中科小达人智能科技有限公司 一种基于人工智能的资源搜索推送系统及方法
KR20220138650A (ko) * 2021-04-06 2022-10-13 주식회사 한글과컴퓨터 영상에 대한 키워드 기반 검색을 가능하게 하는 영상 스트리밍 서비스 서버 및 그 동작 방법
WO2023035307A1 (zh) * 2021-09-13 2023-03-16 华中师范大学 一种视频知识点抽取方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070253678A1 (en) * 2006-05-01 2007-11-01 Sarukkai Ramesh R Systems and methods for indexing and searching digital video content
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN103838751A (zh) * 2012-11-23 2014-06-04 鸿富锦精密工业(深圳)有限公司 视频内容搜索系统及方法
CN106231428A (zh) * 2016-07-29 2016-12-14 乐视控股(北京)有限公司 一种视频推荐方法及装置
CN108268539A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于文本分析的视频匹配系统
CN110390927A (zh) * 2019-06-28 2019-10-29 北京奇艺世纪科技有限公司 音频处理方法、装置、电子设备及计算机可读存储介质
KR102216065B1 (ko) * 2020-05-04 2021-02-18 호서대학교 산학협력단 동영상 세그먼트에 대해 검색결과를 제공하는 방법
KR20210042852A (ko) * 2020-08-28 2021-04-20 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 재생 노드 위치 확정 방법, 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CN112861750A (zh) * 2021-02-22 2021-05-28 平安科技(深圳)有限公司 基于拐点检测的视频提取方法、装置、设备及介质
CN113099312A (zh) * 2021-03-30 2021-07-09 深圳市多科特文化传媒有限公司 教学视频播放系统
KR20220138650A (ko) * 2021-04-06 2022-10-13 주식회사 한글과컴퓨터 영상에 대한 키워드 기반 검색을 가능하게 하는 영상 스트리밍 서비스 서버 및 그 동작 방법
WO2023035307A1 (zh) * 2021-09-13 2023-03-16 华中师范大学 一种视频知识点抽取方法及装置
CN114218348A (zh) * 2021-12-13 2022-03-22 平安科技(深圳)有限公司 基于问答文本的直播片段获取方法、装置、设备及介质
CN114925284A (zh) * 2022-06-16 2022-08-19 江苏中科小达人智能科技有限公司 一种基于人工智能的资源搜索推送系统及方法

Also Published As

Publication number Publication date
CN117033673B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
Miech et al. Howto100m: Learning a text-video embedding by watching hundred million narrated video clips
Koepke et al. Audio retrieval with natural language queries: A benchmark study
CN110020437A (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN105677872B (zh) 一种题目搜索方法、题目搜索装置及学习设备
Oncescu et al. Queryd: A video dataset with high-quality text and audio narrations
CN109275046A (zh) 一种基于双视频采集的教学数据标注方法
Libovický et al. Multimodal abstractive summarization for open-domain videos
CN111046155A (zh) 一种基于fsm多轮问答的语义相似度计算方法
Yang et al. Learning to answer visual questions from web videos
CN112100440A (zh) 视频推送方法、设备及介质
CN111046148A (zh) 智能交互系统及智能客服机器人
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
Xie et al. Sonicvisionlm: Playing sound with vision language models
Huo et al. Semantic relevance learning for video-query based video moment retrieval
CN113656542A (zh) 一种基于信息检索与排序的话术推荐方法
CN117033673B (zh) 一种基于人工智能的多媒体内容抽取系统
CN116662609A (zh) 基于预训练语言模型适配网络的跨模态视频片段检索方法
CN111813919B (zh) 一种基于句法分析与关键词检测的mooc课程评价方法
CN115379242A (zh) 一种三线性编码系统及视频-语言表征学习方法
Atef et al. Adaptive learning environments based on intelligent manipulation for video learning objects
Wu et al. Investigating automated mechanisms for multi-modal prediction of user online-video commenting behaviour
CN111818278A (zh) 一种教学视频采集与检索系统及方法
Liang et al. Webly-supervised learning of multimodal video detectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant