CN118016071A - 教学资源的生成方法、装置、设备和存储介质 - Google Patents

教学资源的生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN118016071A
CN118016071A CN202410133503.XA CN202410133503A CN118016071A CN 118016071 A CN118016071 A CN 118016071A CN 202410133503 A CN202410133503 A CN 202410133503A CN 118016071 A CN118016071 A CN 118016071A
Authority
CN
China
Prior art keywords
video
language model
information
classroom
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410133503.XA
Other languages
English (en)
Inventor
郐吉丰
石楠
金晶
黄玉春
郑艳艳
陈纯
王先民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202410133503.XA priority Critical patent/CN118016071A/zh
Publication of CN118016071A publication Critical patent/CN118016071A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种教学资源的生成方法、装置、设备和存储介质,该方法包括:在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。本发明可以提高教学资源确定的效率。

Description

教学资源的生成方法、装置、设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种教学资源的生成方法、装置、设备和存储介质。
背景技术
随着现代教育技术的发展,课堂教学已经不仅仅局限于传统的面对面教学方式。在线教育、远程教育等新型教学方式也开始逐渐普及,使得课堂教学的内容和形式更加丰富多样。
目前,一些在线教育平台会提供课堂教学录制的功能,以提高学生对课堂教学内容的学习效果和掌握情况,例如,可以通过电脑等设备进行课堂教学录制。另外,为了让学生能够一目了然的了解本次课堂教学的内容,教师通常还会整理或者记录教学资源,学生可以通过教师整理的教学资源和电脑录制的课堂教学视频进行课堂教学内容的回顾。
然而,现在通常都是教师通过手动方式整理教学资源,使得教学资源的确定效率较低。
发明内容
本发明提供一种教学资源的生成方法、装置、设备和存储介质,用以解决现有技术中教学资源的确定效率较低的缺陷,实现提高教学资源确定效率的目的。
本发明提供一种教学资源的生成方法,包括:
在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;
从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;
将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
根据本发明提供的一种教学资源的生成方法,所述教学资源包括课堂纪要,所述课堂纪要包括知识脉络;
所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的课堂纪要,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的初始知识脉络;
确定所述初始知识脉络对应的知识类型;
从知识库中查找与所述知识类型对应的目标知识;
将所述目标知识添加至所述初始知识脉络中,得到所述知识脉络。
根据本发明提供的一种教学资源的生成方法,所述教学资源包括与所述第一提示信息相关的子视频;
所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,得到所述大语言模型输出的与所述第一提示信息相关的目标文本;
从所述课堂视频中提取与所述目标文本相关的至少一个视频帧;
基于所述至少一个视频帧,确定与所述第一提示信息相关的子视频。
根据本发明提供的一种教学资源的生成方法,所述方法还包括:
大语言模型接收所述用户输入的针对所述课堂视频或所述子视频的规整信息;
基于所述规整信息,大语言模型对所述课堂视频或所述子视频中需要处理的视频帧进行规整,得到规整后的视频帧。
根据本发明提供的一种教学资源的生成方法,所述方法还包括:
确定所述课堂视频中与所述规整后的视频帧对应的目标视频帧;
采用规整后的视频帧替换所述目标视频帧,得到规整后的课堂视频。
根据本发明提供的一种教学资源的生成方法,将所述子视频拼接在所述课堂视频的目标位置,或者,将所述子视频进行存储。
根据本发明提供的一种教学资源的生成方法,所述方法还包括:
在接收到所述用户输入的第二提示信息的情况下,从所述第一文本中提取与所述子视频对应的第二文本,并从所述第一信息中提取与所述子视频对应的第二信息;所述第二提示信息用于指示生成与所述子视频对应的课堂纪要;
将所述第二文本和所述第二信息输入所述大语言模型中,得到所述大语言模型输出的与所述子视频对应的课堂纪要。
根据本发明提供的一种教学资源的生成方法,所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,得到所述大语言模型输出的与所述第一提示信息相关的目标文本,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,通过所述大语言模型基于所述第一提示信息和预先对所述第一文本和所述第一信息进行知识理解的标记结果,从所述第一文本和所述第一信息中提取与所述目标知识相关的所述目标文本。
本发明还提供一种教学资源的生成装置,包括:
获取模块,用于在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;
提取模块,用于从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;
转换模块,用于将所述目标音频转换为第一文本;
所述提取模块,用于在所述课堂图像中提取第一信息;
输入模块,用于调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述教学资源的生成方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述教学资源的生成方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述教学资源的生成方法。
本发明提供的教学资源的生成方法、装置、设备和存储介质,在接收到用户输入的第一提示信息的情况下,获取课堂视频,该课堂视频中包括课堂音频和课堂图像,并从课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频后,将目标音频转换为第一文本,并在课堂图像中提取第一信息,通过调用大语言模型,将第一提示信息、第一文本和/或第一信息输入至大语言模型,即可得到该大语言模型输出的教学资源。由于可以基于用户输入的第一提示信息,调用大语言模型对基于课堂视频得到的第一文本和/或第一信息进行语义理解,以自动生成教学资源,从而可以避免教师通过手动方式整理教学资源的现象,提高了教学资源确定的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的教学资源的生成方法的流程示意图;
图2为本发明实施例提供的展示课堂纪要的界面示意图之一;
图3为本发明实施例提供的展示课堂纪要的界面示意图之二;
图4为本发明实施例提供的对需要处理的视频帧进行规整的界面示意图;
图5为本发明实施例提供的子视频对应的课堂纪要的生成界面示意图;
图6是本发明实施例提供的教学资源的生成装置的结构示意图;
图7示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着智能终端技术的发展,智慧黑板作为一款智能互动教学设备,可以实现传统教学黑板和智能电子黑板之间的无缝切换,具备显示、书写、触控和录制等功能。另外,教师在课后还会进行教学资源的一些整理,例如整理本次课堂中的重点或者难点、以及课堂纪要等,以使学生更有针对性的进行教学回顾。然而,目前的方式中,需要教师手动整理教学资源,费事费力,且使得教学资源的确定效率较低。
本发明实施例中考虑到上述问题,提出一种教学资源的生成方法,在该方法中,在录制课堂视频后,可以基于用户输入的用于请求生成教学资源的第一提示信息时,通过调用大语言模型,基于课堂录制视频中的信息自动生成教学资源,从而可以避免教师通过手动方式整理教学资源的现象,提高了教学资源确定的效率。
下面结合图1至图5对本发明实施例提供的教学资源的生成方法进行描述。本发明实施例可以适用于远程教学、在线教学或者其他任意的教学课堂中,通过录制的教学视频生成教学资源的场景中。本方法的执行主体可以是教学交互终端、智能摄像机、计算机、服务器、服务器集群或专门设计的教学资源的生成设备等电子设备,也可以是设置在该电子设备中的教学资源的生成装置,该教学资源的生成装置可以通过软件、硬件或两者的结合来实现。
图1为本发明实施例提供的教学资源的生成方法的流程示意图,如图1所示,该方法包括:
步骤101:在接收到用户输入的第一提示信息的情况下,获取课堂视频;该课堂视频包括课堂音频和课堂图像;第一提示信息用于请求生成教学资源。
具体地,以教学资源为课堂纪要为例进行说明。图2为本发明实施例提供的展示课堂纪要的界面示意图之一,如图2所示,用户可以在星火实录助手的目标界面中输入第一提示信息,如通过目标界面输入文字“请帮我生成一份课堂纪要”,或者通过语音输入语音信息后,再将该语音信息转换为文本,从而得到第一提示信息。
另外,若教学资源包括针对某个知识点的子视频或者微视频时,上述的第一提示信息例如可以为“请帮我生成关于新知讲解的微视频”或者“请帮我生成关于汉代文化知识点的微视频”等。
电子设备在接收到用户输入的第一提示信息时,会获取课堂视频,其中,该课堂视频包括有课堂音频和课堂图像。该课堂视频为教师在进行课堂教学时录制的。具体的,在教学过程中,教师会将教学课件投影至智慧黑板的显示屏进行显示,因此,对显示屏进行视频录制后得到的录制图像中,包括有教学课件,以及显示屏上显示的其他内容。另外,在教学过程中,教师还会在智慧黑板的副板,也即手写板上进行进行书写,设置在书写板中的红外设备会采集书写笔迹对应的轨迹点序列,并将该轨迹点序列发送至处理器。处理器可以基于书写板上采集的多个轨迹点序列确定目标图像,从而将上述的录制图像和目标图像均确定为课堂图像。
进一步地,在教学过程中,教师还会对教学课件以及书写内容进行讲解,因此,还会通过麦克风采集课堂教学过程中的音频,形成课堂音频。应理解,该课堂音频可能不仅包括有教师的语音信息,还可能包括学生回答问题或者其他教学互动的语音信息。
上述的课堂视频为预先录制并存储在数据库中的,当接收到用户输入的第一提示信息时,可以直接从数据库中获取该课堂视频,能够提高课堂视频的获取效率。
步骤102:从课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频。
在本步骤中,在获取到课堂视频后,基于该课堂视频确定课堂音频,并对课堂音频进行声纹识别,得到多个说话人的声纹,并将这些声纹和预设声纹进行匹配,从而确定与预设声纹相匹配的目标声纹。其中,预设声纹可以为预先设置的教师的声纹信息。
进一步地,通常只需要根据教师讲解的内容生成课堂纪要,教师和学生的互动内容以及学生的回答内容对生成课堂纪要的作用不是很大。因此,为了减少无用信息的干扰,提升生成的课堂纪要的准确性,在本实施例中,可以从课堂音频中提取目标声纹对应的说话人的目标音频。其中,目标声纹对应的说话人例如可以为教师。
步骤103:将目标音频转换为第一文本,并在课堂图像中提取第一信息。
在本步骤中,在提取出目标音频后,可以进行语音文本的转换,从而得到该目标音频对应的第一文本。
另外,课堂图像中包括有教师在讲课时的课件内容、教师在书写板上的书写笔迹,该课件内容和书写笔迹对于课堂纪要的生成也是非常有帮助的。因此,为了提升生成的课堂纪要的全面性,还可以从课堂图像中提取第一信息。该第一信息中包括有课件内容中的相关信息和书写笔迹中的相关信息,第一信息包括文本和/或图形,例如教师在课件中制作的文字和图形以及在书写板上书写的文字和图形等。
步骤104:调用大语言模型,将第一提示信息、第一文本和/或第一信息输入至大语言模型中,得到大语言模型输出的教学资源。
在本实施例中,可以通过在星火实录助手中输入第一提示信息后,将调用大语言模型(Large Language Model,LLM),并将第一提示信息、第一文本和/或第一信息输入至大型语言模型中,以对第一提示信息、第一文本和/或第一信息进行语义识别。此处,语义识别用于理解课堂视频所包含内容的含义,从而基于语义理解结果生成课堂纪要。
应理解,在本实施例中,在进行语义识别时,可以通过终端自带的大型语言模型实现,或者也可以通过终端上传至云端,由云端配置的大型语言模型实现。
继续参照图2所示,当用户通过目标界面输入第一提示信息后,通过调用大语言模型,可以实现自动生成教学资源的目的。
值得注意的是,若教学资源包括课堂纪要时,除了通过上述大语言模型的方式之外,还可以预先设置课堂类型、教学科目和纪要模板之间的对应关系。其中,课堂类型例如可以为复习或学习新知等,教学科目例如可以包括语文、数学或英语等。在获取到课堂视频后,通过对课堂音频和课堂图像的分析,确定出课堂视频对应的目标课堂类型和目标教学科目后,基于前述预先设置的对应关系,可以确定出目标纪要模板。该目标纪要模板中包括有多个词槽,通过对第一文本和第一信息进行语义理解,可以得到在各词槽中填充的信息,从而生成课堂纪要。
本发明实施例提供的教学资源的生成方法,在接收到用户输入的第一提示信息的情况下,获取课堂视频,该课堂视频中包括课堂音频和课堂图像,并从课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频后,将目标音频转换为第一文本,并在课堂图像中提取第一信息,通过调用大语言模型,将第一提示信息、第一文本和/或第一信息输入至大语言模型,即可得到该大语言模型输出的教学资源。由于可以基于用户输入的第一提示信息,调用大语言模型对基于课堂视频得到的第一文本和第一信息进行语义理解,以自动生成教学资源,从而可以避免教师通过手动方式整理教学资源的现象,提高了教学资源确定的效率。
示例性的,在上述实施例的基础上,教学资源包括课堂纪要,该课堂纪要中包括有本次教学过程中的重要信息,如知识回顾、知识脉络和典型例题讲解等。对于课堂纪要中的知识脉络,在生成该知识脉络时,可以是通过调用大语言模型,将第一提示信息、第一文本和/或第一信息输入至大语言模型中,得到大语言模型输出的初始知识脉络后,再确定初始知识脉络对应的知识类型,并从知识库中查找与知识类型对应的目标知识,将目标知识添加至初始知识脉络中,得到知识脉络。
具体地,知识脉络也可以理解为知识图谱。在将第一提示信息、第一文本和/或第一信息输入至大语言模型中,经过语义理解,基于课堂视频的内容可以抽取出初始知识脉络。其中,初始知识脉络可以理解为基于本次课堂教学过程中的教学内容中提取的知识脉络。例如,基于本次课堂教学的内容抽取出的初始知识脉络包括:汉朝->经济、政治和文化。
通过对初始知识脉络进行分析,可以得到初始知识脉络对应的知识类型,例如关于朝代的知识类型等。
另外,在电子设备中预先设置有知识库,该知识库中存储有各知识类型对应的知识,因此,通过查询该知识库,可以获取到与初始知识脉络的知识类型对应的目标知识。例如可以获取到唐朝->经济、政治和文化。
进一步地,可以将获取到的目标知识添加到初始知识脉络中,得到知识脉络,如将唐朝->经济、政治和文化添加到汉朝->经济、政治和文化中,从而得到更加完整的关于朝代的相关知识。
在本实施例中,可以将第一提示信息、第一文本和/或第一信息输入到大语言模型中,从而得到初始知识脉络,使得初始知识脉络的生成效率较高。另外,还可以确定初始知识脉络对应的知识类型,从知识库中查找出与该知识类型对应的目标知识后,将该目标知识添加到初始知识脉络中,得到最终的知识脉络,可以提升知识脉络的全面性和完整性,从而可以更加方便用户查看和学习相关知识,极大的提升了用户的体验。
示例性的,在上述各实施例的基础上,为了重点标记出本次课堂教学的重要内容,方便学生的学习,还可以将课堂纪要输入大语言模型中,得到大语言模型输出的从课堂纪要中提取的关键内容后,将关键内容进行标记显示。
具体地,图3为本发明实施例提供的展示课堂纪要的界面示意图之二,如图3所示,可以将生成的课堂纪要输入至大语言模型中,通过大语言模型对课堂纪要进行语义理解,从而基于历史考点内容或者教师在之前的教学过程中标注的重点内容,从课堂纪要中提取关键内容,从而将关键内容进行标记显示。其中,标记显示包括采用不同的颜色标记、加粗处理或者如图3中所示的添加下划线等。
在本实施例中,由于可以基于大语言模型从课堂纪要中提取关键内容,并将关键内容进行标记显示,从而可以突出重点内容,方便了学生的学习,提升了用户体验。
示例性的,在上述各实施例的基础上,还可以对确定出的课堂纪要进行规整,如在接收到用户输入的针对课堂纪要的规整信息时,可以基于该规整信息对课堂纪要进行规整,如对课堂纪要中的部分内容添加注释,或者将生成的课堂纪要输入大语言模型,通过大语言模型识别课堂纪要中重要程度低于预设值的内容,并将这些内容从课堂纪要中删除等。由于可以对课堂纪要进行规整,从而可以使得课堂纪要的使用方式更加灵活,适用性更强,而且使得生成的课堂纪要的准确度更高,而且更具有针对性。
示例性的,在上述各实施例的基础上,前述的教学资源还可以包括与第一提示信息相关的子视频。在生成教学资源时,可以调用大语言模型,将第一提示信息、第一文本和/或第一信息输入大语言模型中,得到大语言模型输出的与第一提示信息相关的目标文本,从课堂视频中提取与目标文本相关的至少一个视频帧,并基于至少一个视频帧,确定与第一提示信息相关的子视频。
具体地,当用户想要生成与目标知识相关的子视频时,可以基于目标界面输入第一提示信息。在一种可能的实现方式中,该第一提示信息中例如可以包括新知讲解或者某个具体的知识点。例如,第一提示信息例如可以为“请帮我生成关于A知识点的视频”。在另一种可能的实现方式中,该第一提示信息中还可以包括预设时间段,例如第一提示信息例如可以为“请帮我生成从3分10秒至10分8秒的视频”
其中,若第一提示信息中包括新知讲解或者某个具体的知识点时,可以通过调用大语言模型,将得到的第一提示信息、第一文本和/或第一信息输入至大语言模型中,通过大语言模型对第一提示信息、第一文本和/或第一信息进行语义理解,从而从第一文本和第一信息中提取与第一提示信息相关的目标文本。其中,该目标文本可以包括对某个知识点的讲解的文本或者其他任何与第一提示信息相关的文本。
由于第一文本和第一信息均与课堂视频中的课堂音频和课堂图像相关,因此,在从第一文本和第一信息中确定出目标文本后,可以从课堂视频中提取与目标文本相关的至少一个视频帧,其中,视频帧包括音频和图像,也即从课堂视频中提取视频帧时,可以是从课堂音频中提取与第一提示信息相关的音频信息以及从课堂图像中提取与第一提示信息相关的图像,从而将提取的音频和图像进行合成,得到与目标知识相关的至少一个视频帧。
应理解,在视频帧的数量为至少两个的时候,这至少两个视频帧可能为连续的视频帧,也可能为不连续的视频帧。若提取出至少两个不连续的视频帧时,需要将至少两个视频帧进行拼接,从而可以确定出与第一提示信息相关的子视频。若提取出至少两个连续的视频帧时,这至少两个连续的视频帧组成的视频片段即为与第一提示信息相关的子视频。
另外,若第一提示信息中包括预设时间段时,可以基于该预设时间段直接从课堂视频中提取对应的子视频。
应理解,还可以对提取出的预设时间段对应的子视频进行规整,从而采用规整后的子视频替换原课堂视频中的子视频。
在本实施例中,通过调用大语言模型,通过大语言模型可以从第一文本和第一信息中确定与第一提示信息相关的目标文本,并从课堂视频中提取出与目标文本相关的至少一个视频帧,从而基于至少一个视频帧,确定与第一提示信息相关的子视频,由于可以通过大语言模型从课堂视频中筛选出与第一提示信息相关的视频帧,提高了视频帧确定的效率和准确度。另外,可以确定出与第一提示信息相关的子视频并进行显示,使得学生在学习过程中,能够快速且方便的获知与第一提示信息相关的子视频,避免了需要学生手动从课堂视频中查找与第一提示信息相关的子视频的现象,提升了学生的学习体验。
进一步地,在上述实施例的基础上,不同学生的学习情况通常不同,或者可能会有不同的学习心得和体会等,因此,还可以对课堂视频或提取出的子视频进行规整,如删除视频帧或者添加注释等。示例性的,大语言模型接收用户输入的针对课堂视频或子视频的规整信息,并基于规整信息,大语言模型对课堂视频或子视频中需要处理的视频帧进行规整,得到规整后的第一视频帧。在基于至少一个视频帧,确定与第一提示信息相关的子视频时,可以是按照各视频帧在课堂视频中的顺序,将所有视频帧中未规整的第二视频帧和规整后的第一视频帧进行拼接,得到与第一提示信息相关的子视频。
具体地,图4为本发明实施例提供的对需要处理的视频帧进行规整的界面示意图,如图4所示,当用户需要对课堂视频或提取的子视频中需要处理的视频帧进行规整时,可以基于目标界面输入针对需要处理的视频帧的规整信息,该规整信息包括添加的注释内容或者添加的其他内容,也可以是删除或者增加的视频帧等。在获取到规整信息后,可以基于规整信息,通过大语言模型对对应的视频帧进行规整,从而得到规整后的第一视频帧,如添加了注释的视频帧。
应理解,可以对课堂视频或子视频中的所有视频帧均进行规整处理,也可以是仅对部分视频帧进行处理。
在得到规整的第一视频帧后,在确定与第一提示信息相关的子视频时,可以是各视频帧在课堂视频中的顺序,将所有视频帧中未进行规整的视频帧和进行了规整后得到的规整的第一视频帧进行拼接,从而得到与第一提示信息相关的子视频。
在本实施例中,由于可以对课堂视频或子视频进行规整,从而可以提升视频的处理灵活性。另外,在进行规整后,将按照各视频帧在课堂视频中的顺序,将所有视频帧中未规整的视频帧和规整的第一视频帧进行拼接,从而避免了最后得到的子视频发生混乱的现象,提升了子视频的准确性。
示例性的,在上述实施例的基础上,还可以确定课堂视频中与规整后的视频帧对应的目标视频帧,并采用规整后的视频帧替换目标视频帧,得到规整后的课堂视频。
具体地,与规整后的视频帧对应的目标视频帧,可以理解为课堂视频中规整之前的视频帧。在确定出目标视频帧后,将规整后的视频帧替换之前的目标视频帧,从而得到规整后的课堂视频。例如,若课堂视频中的第3帧-第5帧视频帧为与目标知识相关的视频帧,且用户在第4帧视频帧中添加了注释信息。因此,可以采用添加了注释信息的第4帧视频帧替换原来的第4帧视频帧,从而得到规整后的课堂视频。
在本实施例中,可以采用规整后的视频帧替换课堂视频中对应的规整之前的视频帧,得到规整后的课堂视频,这样,学生不仅可以基于规整后的课堂视频查看完成的教学过程,而且可以查看规整信息,使得课堂视频的呈现方式更加灵活,而且可以提升学生的学习体验。
进一步地,在上述各实施例的基础上,还可以将子视频拼接在课堂视频的目标位置,或者,将子视频进行存储。
具体地,在提取出与第一提示信息相关的子视频后,可以将得到的子视频拼接在原课堂视频的目标位置处,如拼接在原课堂视频的结束位置、起始位置或者课堂视频中间的任意一个位置处,以方便学生进行查看。
另外,也可以将提取的子视频单独进行存储,这样,学生在后期学习时即可方便的查找到与第一提示信息相关的子视频。
进一步地,在上述各实施例的基础上,还可以选择性的生成与第一提示信息相关的子视频的课堂纪要,以更加符合用户的需求。示例性的,在接收到用户输入的第二提示信息的情况下,从第一文本中提取与子视频对应的第二文本,并从第一信息中提取与子视频对应的第二信息;该第二提示信息用于指示生成与子视频对应的课堂纪要,将第二文本和第二信息输入大语言模型中,得到大语言模型输出的与子视频对应的课堂纪要。
具体地,图5为本发明实施例提供的子视频对应的课堂纪要的生成界面示意图,如图5所示,用户可以通过目标界面输入第二提示信息,例如输入“请帮我生成一份关于知识点A的课堂纪要”。在接收到用户输入的第二提示信息时,将从第一文本中提取和子视频对应的第二文本,并从第一信息中提取与子视频对应的第二信息。由于子视频为与第一提示信息相关的视频,因此,提取出的第二文本即为与第一提示信息相关的文本,第一信息为与第一提示信息相关的信息。
进一步地,可以将提取的与第一提示信息相关的第二文本和第二信息输入至大语言模型中,通过大语言模型对第二文本和第二信息进行语义理解,从而可以得到与子视频对应的课堂纪要,也即与第一提示信息对应的课堂纪要。可以理解的是,该课堂纪要中包含的是与第一提示信息相关的内容。
在本实施例中,在接收到用户输入的第二提示信息时,可以从第一文本中提取与子视频对应的第二文本,并从第一信息中提取与子视频对应的第二信息,从而通过调用大语言模型,得到与子视频对应的课堂纪要。由于该课堂纪要并非是整个课堂教学过程对应的纪要,而是与子视频对应的课堂纪要,因此,可以使得学生能够基于该课堂纪要快速的查找与第一提示信息相关的内容,提高了设备的智能化程度,而且可以提升学生的学习体验,节省了学生查找信息的时间。
示例性的,在上述各实施例的基础上,在调用大语言模型,将第一提示信息、第一文本和/或第一信息输入大语言模型中,得到大语言模型输出的与第一提示信息相关的目标文本时,可以是通过调用大语言模型,将第一提示信息、第一文本和/或第一信息输入大语言模型中,通过大语言模型基于第一提示信息和预先对第一文本和/或第一信息进行知识理解的标记结果,从第一文本和/或第一信息中提取与目标知识相关的目标文本。
具体地,在录制课堂视频之后,可以将课堂视频中的课堂音频对应的第一文本和/或课堂图像对应的第一信息输入至大语言模型中,大语言模型对该第一文本和/或第一信息进行语义理解后,会对第一文本和/或第一信息进行知识理解的标注,得到知识理解的标记结果。该标记结果用于表征第一文本和/或第一信息的含义以及在教学场景下的语境等内容。
在生成教学资源时,或者在确定与第一提示信息相关的目标文本时,将第一文本和/或第一信息输入至大语言模型后,大语言模型会调用之前做的标记结果,通过查找该标记结果,直接从第一文本和/或第一信息中提取和第一提示信息相关的目标文本。
在本实施例中,由于可以预先通过大语言模型对第一文本和/或第一信息进行知识理解的标记,因而在提取目标文本时,直接通过之前标注的标记结果进行提取,从而可以提升目标文本获取的效率。
下面对本发明提供的教学资源的生成装置进行描述,下文描述的教学资源的生成装置与上文描述的教学资源的生成方法可相互对应参照。
图6是本发明实施例提供的教学资源的生成装置的结构示意图,参照图6所示,教学资源的生成装置600包括:
获取模块601,用于在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;
提取模块602,用于从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;
转换模块603,用于将所述目标音频转换为第一文本;
所述提取模块602,用于在所述课堂图像中提取第一信息;
输入模块604,用于调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
在一种示例实施例中,所述教学资源包括课堂纪要,所述课堂纪要包括知识脉络;所述输入模块604,具体用于:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的初始知识脉络;
确定所述初始知识脉络对应的知识类型;
从知识库中查找与所述知识类型对应的目标知识;
将所述目标知识添加至所述初始知识脉络中,得到所述知识脉络。
在一种示例实施例中,所述教学资源包括与所述第一提示信息相关的子视频;所述输入模块604,具体用于:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,得到所述大语言模型输出的与所述第一提示信息相关的目标文本;
从所述课堂视频中提取与所述目标文本相关的至少一个视频帧;
基于所述至少一个视频帧,确定与所述第一提示信息相关的子视频。
在一种示例实施例中,所述装置还包括:接收模块和规整模块,其中:
接收模块,用于接收所述用户输入的针对所述课堂视频或所述子视频的规整信息;
规整模块,用于基于所述规整信息,对所述课堂视频或所述子视频中需要处理的视频帧进行规整,得到规整后的视频帧。
在一种示例实施例中,所述装置还包括:确定模块和替换模块,其中:
确定模块,用于确定所述课堂视频中与所述规整后的视频帧对应的目标视频帧;
替换模块,用于采用规整后的视频帧替换所述目标视频帧,得到规整后的课堂视频。
在一种示例实施例中,所述装置还包括拼接模块和存储模块;
拼接模块,用于将所述子视频拼接在所述课堂视频的目标位置;
存储模块,用于将所述子视频进行存储。
在一种示例实施例中,提取模块602,还用于在接收到所述用户输入的第二提示信息的情况下,从所述第一文本中提取与所述子视频对应的第二文本,并从所述第一信息中提取与所述子视频对应的第二信息;所述第二提示信息用于指示生成与所述子视频对应的课堂纪要;
输入模块604,还用于将所述第二文本和所述第二信息输入所述大语言模型中,得到所述大语言模型输出的与所述子视频对应的课堂纪要。
在一种示例实施例中,输入模块604,具体用于:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,通过所述大语言模型基于所述第一提示信息和预先对所述第一文本和所述第一信息进行知识理解的标记结果,从所述第一文本和所述第一信息中提取与所述目标知识相关的所述目标文本。
本实施例的装置,可以用于执行教学资源的生成方法侧实施例中任一实施例的方法,其具体实现过程与技术效果与教学资源的生成方法侧实施例中类似,具体可以参见教学资源的生成方法侧实施例中的详细介绍,此处不再赘述。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行教学资源的生成方法,该方法包括:在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的教学资源的生成方法,该方法包括:在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的教学资源的生成方法,该方法包括:在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种教学资源的生成方法,其特征在于,包括:
在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;
从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;
将所述目标音频转换为第一文本,并在所述课堂图像中提取第一信息;
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
2.根据权利要求1所述的教学资源的生成方法,其特征在于,所述教学资源包括课堂纪要,所述课堂纪要包括知识脉络;
所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的课堂纪要,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的初始知识脉络;
确定所述初始知识脉络对应的知识类型;
从知识库中查找与所述知识类型对应的目标知识;
将所述目标知识添加至所述初始知识脉络中,得到所述知识脉络。
3.根据权利要求1所述的教学资源的生成方法,其特征在于,所述教学资源包括与所述第一提示信息相关的子视频;
所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入所述大语言模型中,得到所述大语言模型输出的与所述第一提示信息相关的目标文本;
从所述课堂视频中提取与所述目标文本相关的至少一个视频帧;
基于所述至少一个视频帧,确定与所述第一提示信息相关的子视频。
4.根据权利要求1或3所述的教学资源的生成方法,其特征在于,所述方法还包括:
大语言模型接收所述用户输入的针对所述课堂视频或所述子视频的规整信息;
基于所述规整信息,所述大语言模型对所述课堂视频或所述子视频中需要处理的视频帧进行规整,得到规整后的视频帧。
5.根据权利要求4所述的教学资源的生成方法,其特征在于,所述方法还包括:
确定所述课堂视频中与所述规整后的视频帧对应的目标视频帧;
采用所述规整后的视频帧替换所述目标视频帧,得到规整后的课堂视频。
6.根据权利要求3所述的教学资源的生成方法,其特征在于,所述方法还包括:
将所述子视频拼接在所述课堂视频的目标位置,或者,将所述子视频进行存储。
7.根据权利要求3所述的教学资源的生成方法,其特征在于,所述方法还包括:
在接收到所述用户输入的第二提示信息的情况下,从所述第一文本中提取与所述子视频对应的第二文本,并从所述第一信息中提取与所述子视频对应的第二信息;所述第二提示信息用于指示生成与所述子视频对应的课堂纪要;
将所述第二文本和所述第二信息输入所述大语言模型中,得到所述大语言模型输出的与所述子视频对应的课堂纪要。
8.根据权利要求3所述的教学资源的生成方法,其特征在于,所述调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入大语言模型中,得到所述大语言模型输出的与所述第一提示信息相关的目标文本,包括:
调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入所述大语言模型中,通过所述大语言模型基于所述第一提示信息和预先对所述第一文本和所述第一信息进行知识理解的标记结果,从所述第一文本和所述第一信息中提取与所述目标知识相关的所述目标文本。
9.一种教学资源的生成装置,其特征在于,包括:
获取模块,用于在接收到用户输入的第一提示信息的情况下,获取课堂视频;所述课堂视频包括课堂音频和课堂图像;所述第一提示信息用于请求生成教学资源;
提取模块,用于从所述课堂音频中提取与预设声纹匹配的目标声纹对应的说话人的目标音频;
转换模块,用于将所述目标音频转换为第一文本;
所述提取模块,用于在所述课堂图像中提取第一信息;
输入模块,用于调用大语言模型,将所述第一提示信息、所述第一文本和/或所述第一信息输入至大语言模型中,得到所述大语言模型输出的教学资源。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述教学资源的生成方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述教学资源的生成方法。
CN202410133503.XA 2024-01-30 2024-01-30 教学资源的生成方法、装置、设备和存储介质 Pending CN118016071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410133503.XA CN118016071A (zh) 2024-01-30 2024-01-30 教学资源的生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410133503.XA CN118016071A (zh) 2024-01-30 2024-01-30 教学资源的生成方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN118016071A true CN118016071A (zh) 2024-05-10

Family

ID=90955454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410133503.XA Pending CN118016071A (zh) 2024-01-30 2024-01-30 教学资源的生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN118016071A (zh)

Similar Documents

Publication Publication Date Title
CN111833672B (zh) 一种教学视频的展示方法、装置及系统
CN112115301B (zh) 一种基于课堂笔记的视频标注方法及系统
US20110208508A1 (en) Interactive Language Training System
CN111522970A (zh) 习题推荐方法、装置、设备及存储介质
CN110569364A (zh) 在线教学方法、装置、服务器及存储介质
CN110069616B (zh) 互动对话生成方法、编辑器、互动对话系统、设备及介质
CN112528799B (zh) 一种教学直播方法、装置、计算机设备和存储介质
CN110795917A (zh) 个性化讲义生成方法、系统及电子设备、存储介质
CN113254708A (zh) 一种视频搜索方法、装置、计算机设备及存储介质
CN116010569A (zh) 在线答疑方法、系统、电子设备及存储介质
CN113779345B (zh) 一种教学材料生成方法、装置、计算机设备和存储介质
CN111985282A (zh) 一种学习能力的训练和评测系统
CN114297372A (zh) 个性化的笔记生成方法及系统
CN118053331A (zh) 一种在线教学人工智能辅导的方法、介质及系统
Wang et al. Video-Based Big Data Analytics in Cyberlearning.
CN111563697A (zh) 一种线上课堂学生情绪分析方法和系统
CN114780793B (zh) 信息标注方法、装置、终端设备以及存储介质
CN114254076B (zh) 一种多媒体教学的音频处理方法、系统及存储介质
CN118016071A (zh) 教学资源的生成方法、装置、设备和存储介质
JP3930402B2 (ja) オンライン教育システム、情報処理装置、情報提供方法及びプログラム
CN114895795A (zh) 交互方法、装置、平台、电子设备和存储介质
Hasnine et al. A new technology design for personalized incidental vocabulary learning using lifelog image analysis
US10453354B2 (en) Automatically generated flash cards
CN117975967A (zh) 教学资源的生成方法、装置、设备和存储介质
CN111951628A (zh) 一种基于翻转学习的交互式学习系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination