CN111522992A - 题目入库方法、装置、设备及存储介质 - Google Patents

题目入库方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111522992A
CN111522992A CN202010302222.4A CN202010302222A CN111522992A CN 111522992 A CN111522992 A CN 111522992A CN 202010302222 A CN202010302222 A CN 202010302222A CN 111522992 A CN111522992 A CN 111522992A
Authority
CN
China
Prior art keywords
exercise
data
content
video data
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010302222.4A
Other languages
English (en)
Inventor
曾乙峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010302222.4A priority Critical patent/CN111522992A/zh
Publication of CN111522992A publication Critical patent/CN111522992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种题目入库方法、装置、设备及存储介质,涉及网络教学技术领域,其包括:获取包含目标习题题目的视频数据;识别所述视频数据中的所述目标习题题目,以得到文本数据;根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。采用上述方案可以构建满足视频教学搜题需求的习题库,进而解决基于文字构建的习题库无法满足视频教学中搜题需求的技术问题。

Description

题目入库方法、装置、设备及存储介质
技术领域
本申请实施例涉及网络教学技术领域,尤其涉及一种题目入库方法、装置、设备及存储介质。
背景技术
网络教学是在一定教学理论和思想指导下,应用多媒体和网络技术,通过师、生、媒体等多边、多向互动和对多种媒体教学信息的收集、传输、处理、共享,来实现教学目标的一种教学模式。
网络教学中,习题库是很重要的组成部分,学生可以通过习题库搜索需要的习题进行练习。现有习题库中的习题以文字的形式进行保存。在搜题时,先获取待搜索题目的文字,之后,将该文字与习题库中各习题的文字进行相似度匹配,并根据匹配结果获取查找到的习题。随着互联网技术的发展,视频教学已经成为网络教学中一种常见的教学模式。此时,基于文字构建的习题库已经无法满足视频教学中的搜题需求。
因此,如何构建满足视频教学搜题需求的习题库成为了亟需解决的问题。
发明内容
本申请提供了一种题目入库方法、装置、设备及存储介质,以实现构建一种可以满足视频教学搜题需求的习题库。
第一方面,本申请实施例提供了一种题目入库方法,包括:
获取包含目标习题题目的视频数据;
识别所述视频数据中的所述目标习题题目,以得到文本数据;
根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;
建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
进一步的,所述根据所述文本数据确认对应的习题内容包括:
根据所述文本数据进行搜索,以得到第一待选习题内容;
确认所述第一待选习题内容包含的习题题目与所述目标习题题目是否一致;
若一致,则将所述第一待选习题内容确认为所述文本数据对应的习题内容;
相应的,所述将所述视频数据与所述习题内容关联保存至习题库中包括:
确认若所述习题内容已经保存在习题库中,则将所述视频数据保存至所述习题库中。
进一步的,还包括:
若不一致,则获取针对于所述文本数据的人工编辑结果,所述人工编辑结果包括人工编辑的所述目标习题题目和习题答案;
将所述人工编辑结果确认为所述文本数据对应的习题内容。
进一步的,所述根据所述文本数据进行搜索,以得到第一待选习题内容包括:
根据所述文本数据进行搜索,得到多个第二待选习题内容;
获取各所述第二待选习题内容与所述文本数据之间的文本匹配度;
选择所述文本匹配度大于预设匹配度的第二待选习题内容,并将所选择的第二待选习题内容作为第一待选习题内容。
进一步的,所述根据所述文本数据进行搜索,以得到第一待选习题内容包括:
根据所述视频数据对应的视频标签,搜索满足于所述视频标签的第三待选习题内容;
在所述第三待选习题内容中,搜索与所述文本数据对应的第三待选习题内容,并将搜索得到的第三待选习题内容作为第一待选习题内容。
进一步的,所述识别所述视频数据中的所述目标习题题目,以得到文本数据包括:
获取所述视频数据中包含所述目标习题题目的播放数据,所述播放数据包括:对所述视频数据进行截图得到的图片数据和/或所述视频数据中的音频数据;
识别所述播放数据以得到对应的文本数据。
进一步的,所述识别所述播放数据以得到对应的文本数据之后,还包括:
对所述文本数据进行文字清洗,以剔除所述文本数据中的无效文本。
第二方面,本申请实施例还提供了一种题目入库装置,包括:
数据获取模块,用于获取包含目标习题题目的视频数据;
数据识别模块,用于识别所述视频数据中的所述目标习题题目,以得到文本数据;
内容确定模块,用于根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;
视频入库模块,用于建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
第三方面,本申请实施例还提供了一种题目入库设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的题目入库方法。
第四方面,本申请实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的题目入库方法。
上述题目入库方法、装置、设备及存储介质,通过获取包含目标习题题目的视频数据,之后,识别视频数据中的目标习题题目,以得到文本数据,并基于文本数据确认对应的习题内容,之后,建立习题内容与视频数据的关联关系,并将视频数据与习题内容关联保存至习题库中的技术手段,可以实现构建一种满足视频教学搜题需求的习题库,解决了基于文字构建的习题库无法满足视频教学中搜题需求的技术问题。将包含习题题目的视频数据以及对应的习题题目及习题答案存入习题库,可以在视频教学中实现通过视频数据搜索对应的习题,增强了视频学习的便利性,提升了学生的使用体验。
附图说明
图1为本申请实施例提供的一种题目入库方法的流程图;
图2为本申请实施例提供的另一种题目入库方法的流程图;
图3为本申请实施例提供的一种题目入库装置的结构示意图;
图4为本申请实施例提供的一种题目入库设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
实施例中提供的题目入库方法可以由题目入库装置执行,该题目入库装置可以通过软件和/或硬件的方式实现,并集成在题目入库设备中。其中,题目入库设备可以是计算机等设备。题目入库设备可以认为是为学生使用的智能设备实现网络教学而提供服务的后台服务器。其中,学生使用的智能设备包括但不限定于平板电脑、手机、学习机等智能设备。
图1为本申请实施例提供的一种题目入库方法的流程图。参考图1,该题目入库方法具体包括:
步骤110、获取包含目标习题题目的视频数据。
典型的,目标习题题目是指待存入习题库中的习题题目,其中,习题库中存储有大量的习题以及习题的答案。实施例中不限定习题库的存储位置,题目入库设备可以访问习题库。可选的,由于不同地区的授课教材不同,因此,在构建习题库时,可以基于地区进行区分。例如,搜集北京地区数学教材上的习题,标记后录入习题库,同时,搜集江苏地区数学教材上的习题,标记后录入习题库。
进一步的,视频数据是指网络教学中所使用的直播视频数据或录制视频数据。实施例中,视频数据中包含目标习题题目,其中,目标习题题目可以显示在视频数据的画面中和/或包含在视频数据的音频中。需说明,视频数据的获取途径实施例不作限定,例如,利用互联网获取网络上的视频数据。典型的,获取视频数据时,还对应获取每个视频数据的视频标签,其中,视频标签的格式以及内容不作限定,例如,视频标签包含所讲述知识点、所讲述知识点所属的年级、科目、使用的教材、使用教材所属的出版社、使用教材所适用的地区等内容。视频标签可以由视频数据的制作者创建,也可以由视频数据所存储的设备自动创建。
可选的,由于网络教学中使用的视频数据除了包含目标习题题目,还包含大量其他的内容,例如包含老师讲解目标习题题目的内容、老师对目标习题题目所涉及的知识点进行讲解的内容等。此时,为了避免其他内容对后续处理过程的干扰,实施例中,对视频数据进行切分,截取仅包含目标习题题目的视频数据。其中,截取方式实施例不作限定。可以理解,若视频数据中包含多个目标习题题目,则可以分别基于每个目标习题题目截取得到一个视频数据。实施例中,设定截取到的视频数据中显示有目标习题题目和/或包含阅读目标习题题目的音频。视频数据的具体时长实施例不作限定。
步骤120、识别所述视频数据中的所述目标习题题目,以得到文本数据。
示例性的,得到包含目标习题题目的视频数据后,对视频数据进行解析,以识别目标习题题目的具体内容,实施例中,识别得到的目标习题题目以文本数据的方式表示。其中,识别目标习题题目的方式可以根据实际情况设定,例如,对视频数据进行截图,以得到包含目标习题题目的图片数据,之后,对该图片数据进行识别,以获取该图片数据中的文本数据。再如,获取视频数据中的音频数据,该音频数据包含阅读目标习题题目的音频,之后,对音频数据进行语音识别,以得到文本数据。又如,分别获取基于图片数据和音频数据得到的文本数据,之后,基于两个文本数据确定最终得到的文本数据,例如,提取两个文本数据中的相似数据以得到最终的文本数据,或者是,将两个文本数据确认为最终得到的文本数据。
步骤130、根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案。
由于文本数据包含目标习题题目,因此,基于文本数据可以确认对应的习题内容。其中,习题内容包含的习题题目与目标习题题目相同,习题内容还包含习题题目对应的习题答案。习题内容可以是图片格式或文本格式等,实施例中,以文本格式为例。
具体的,基于文本数据进行搜索,此时,可以是在当前已建立的习题库中进行搜索,还可以利用互联网技术,在互联网中进行搜索。可选的,在搜索时,先基于文本数据搜索与目标习题题目的文本匹配度大于预设匹配度的习题题目,并关联获取该习题题目对应的习题答案。实施例中,将搜索到的习题题目和习题内容记为待选习题内容。可以理解,搜索结束后,文本数据对应至少一个待选习题内容。需说明,实际应用中,还会出现没有搜索到大于预设匹配度的待选习题内容的情况。
当文本数据对应至少一个待选习题内容时,确定待选习题内容中的习题题目与目标习题题目是否完全一致,若一致,则说明搜索到原题。此时,可以将待选习题内容确认为文本数据对应的习题内容。相应的,若不一致,则说明未搜索到原题。此时,需要获取针对于文本数据的人工编辑结果,其中,人工编辑结果是指根据文本数据人工编辑的习题题目以及习题答案,习题题目为目标习题题目。之后,将人工编辑结果确定为文本数据对应的习题内容。可以理解,当没有搜索到大于预设匹配度的待选习题内容时,说明没有搜索到相似的题目,因此,同样需要获取人工编辑结果。之后,将人工编辑结果确定为文本数据对应的习题内容。
可选的,在进行搜索时,可以是先基于视频数据的视频标签,进行初步搜索,相应的,每个待选习题内容同样包含对应的习题标签。经过搜索后,可以搜索到满足视频标签的待选习题内容。例如,视频标签包括所讲述知识点、所讲述知识点所属的年级、科目、使用的教材,待选习题内容的习题标签包含同样的内容,此时,通过匹配视频标签和习题标签的方式,搜索满足视频标签的待选习题内容。之后,在搜索到的待选习题内容中,基于文本数据再次进行搜索。这样做的好处是,可以提高最终搜索到的待选习题内容的准确率。
步骤140、建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
确认文本数据对应的习题内容后,便可以建立文本数据对应的视频数据与习题内容的关联关系。其中,关联关系的建立方式实施例不作限定。
之后,将视频数据和关联的习题内容一同保存在习题库中,以完成目标习题内容的入库操作。可选的,将视频数据存入习题库时,同步存储对视频数据进行截图后得到的图片数据以及视频数据包含的音频数据等内容。还可选的,将视频数据存入习题库中,同步存入对应的视频标签。此时,习题库中除了存储有习题的习题题目和习题内容,还存储有包含习题题目的视频数据、图片数据以及音频数据。此后,在网络教学的过程中,用户可以通过包含习题题目的视频数据、图片数据和/或音频数据进行搜题,而不仅局限于通过文字进行搜题,例如,获取包含待搜索题目的视频数据,之后,将该视频数据与习题库中存储的视频数据进行匹配,以在习题库中查找到对应的视频数据并获取关联的习题内容作为习题搜索结果返回给用户。同时,在搜题时,还可以通过匹配视频标签的方式,保证搜题的准确性。
可选的,若习题内容已经存储在习题库中,那么,在建立视频数据与习题内容的关联关系后,可以仅将视频数据关联存储在习题库中。
上述,通过获取包含目标习题题目的视频数据,之后,识别视频数据中的目标习题题目,以得到文本数据,并基于文本数据确认对应的习题内容,之后,建立习题内容与视频数据的关联关系,并将视频数据与习题内容关联保存至习题库中的技术手段,可以实现构建一种满足视频教学搜题需求的习题库,解决了基于文字构建的习题库无法满足视频教学中搜题需求的技术问题。将包含习题题目的视频数据以及对应的习题题目及习题答案存入习题库,可以在视频教学中实现通过视频数据搜索对应的习题,增强了视频学习的便利性,提升了学生的使用体验。
图2为本申请实施例提供的另一种题目入库方法的流程图。该题目入库方法是在上述实施例的基础上进行具体化,参考图2,该题目入库方法包括:
步骤210、获取包含目标习题题目的视频数据。
步骤220、获取所述视频数据中包含所述目标习题题目的播放数据,所述播放数据包括:对所述视频数据进行截图得到的图片数据和/或所述视频数据中的音频数据。
其中,播放数据可以理解为播放视频时学生感官接收的数据。实施例中,设定播放数据包括图片数据和/或音频数据。图片数据是指对视频数据进行截图后得到的图片,由于老师在授课过程中,可以通过板书的方式显示目标习题题目,因此,对视频数据进行截图后可以得到包含目标习题题目的图片数据。可选的,截取图片数据时,可以是截取多帧图片数据,之后,在多帧图片数据中,删除相似的图片数据,以保留一帧图片数据。举例而言,若截取得到的每张图片数据均包含目标习题题目,则每张图片数据的相似度较高,因此,可以通过相似度计算,确定各图片数据之间的相似度,并删除相似度较高的图片数据,保留一张图片数据。可选的,保留一张图片数据时,可以是保留形变最小的图片数据。若多帧图片数据中,存在相似度较低的至少两帧图片数据,则可以通知题目入库设备的技术人员在两帧图片数据之间选择显示目标习题题目的图片数据,或者是,获取两帧图片数据中显示的文本数据,并对文本数据进行语义识别,以保留显示目标习题题目的图片数据。举例而言,视频数据当前帧和下一帧中显示的内容发生了明显的变化,那么对两个帧进行截图后得到的图片数据之间的相似度较低,此时,可以通知技术人员在两个图片数据之间选择显示目标习题题目的图片数据,或者是,获取两帧图片数据中显示的文本数据,并对文本数据进行语义识别,以保留显示目标习题题目的图片数据。
音频数据是指视频视频中的语音数据,由于老师在授课过程中,可以通过讲话的方式阅读目标习题题目,因此,可以获取视频数据中包含目标习题题目的的音频数据。其中,音频数据的格式实施例不作限定,例如,音频数据为:WAV、MP3或ORG等格式。
步骤230、识别所述播放数据以得到对应的文本数据。
典型的,播放数据为图片数据时,利用光学字符识别(Optical CharacterRecognition,OCR)识别图片数据中的文本,并得到文本数据。播放数据为音频数据时,利用语音识别(Automatic Speech Recognition,ASR)将音频数据转换成文字,并得到文本数据。当播放数据包含音频数据和图片数据时,可以采用上述手段得到音频数据对应的文本数据以及图片数据对应的文本数据,此时,得到两个文本数据。还可以在得到两个文本数据后,计算两个文本数据之间的相似度,若两个文本数据均包含目标习题题目,则两个文本数据中目标习题题目对应的文本部分之间的相似度极高,因此,可以摘取相似度高的文本部分作为最终得到的文本数据。实施例中,以播放数据包括图片数据和音频数据,且得到两个文本数据为例进行表述。可以理解,实际应用中,存在文本数据不包含目标习题题目的情况,例如,音频数据对应的文本数据中不包含目标习题题目。此时,可以在得到两个文本数据后,对其进行语义识别,并根据语义识别结果仅保留包含目标习题题目的文本数据。若两个文本数据均不包含目标习题题目,则可以认为题目入库失败,并重新获取视频数据。
典型的,由于文本数据中可能包含一些无效的文本,无效的文本会影响后续搜索结果的准确性,因此,实施例中,设定所述识别所述播放数据以得到对应的文本数据之后,还包括:对所述文本数据进行文字清洗,以剔除所述文本数据中的无效文本。其中,文字清洗的方式实施例不作限定,例如,建立无效文本集合,无效文本集合可以采用正则的方式构建。之后,基于无效文本集合,分别在两个文本数据中进行匹配,以识别到两个文本数据包含的无效文本,进而删除无效文本。后续处理过程中,使用的文本数据为删除无效文本后的数据。例如,某个文本数据为“第一题AAA”,其中,“AAA“”为目标习题题目的示例性描述。“第一题”为无效文本,此时,可以将“第一题”加入无效文本集合,之后,基于无效文本集合在文本数据中匹配无效文本“第一题”并删除该无效文本,以得到文本数据“AAA”。
步骤240、根据所述文本数据进行搜索,以得到第一待选习题内容。
当包含两个文本数据时,分别基于两个文本数据进行搜索,由于两个文本数据的搜索处理方式相同,因此,实施例中以一个文本数据进行搜索为例,进行描述。具体的,基于文本数据在现有的习题库或互联网中搜索与目标习题题目相似的习题题目以及习题题目对应的习题答案,并组成待选习题内容,实施例中,将搜索得到的结果记为第一待选习题内容,第一待选习题内容中包括习题题目和习题答案。
一个实施例中,为保证第一待选习题内容的准确性,设定步骤240包括步骤241-步骤243:
步骤241、根据所述文本数据进行搜索,得到多个第二待选习题内容。
具体的,基于文本数据在现有的习题库或互联网中进行搜索得到习题题目以及习题题目对应的习题答案,并组成待选习题内容,此时,将待选习题内容记为第二待选习题内容。一般而言,第二待选习题内容为多个。
基于文本数据进行搜索时,会计算文本数据与搜索到的习题题目之间的相似度,之后,按照相似度的方式由高到低排列各第二待选习题内容。
步骤242、获取各所述第二待选习题内容与所述文本数据之间的文本匹配度。
文本匹配度可以理解为第二待选习题内容中的习题题目与文本数据之间的相似度,文本匹配度可以采用欧式距离、余弦相似度等方式进行计算。文本匹配度越高,文本数据与第二待选习题内容中的习题题目越相似。在搜索到第二待选习题内容时,可以同步获取对应的文本匹配度。
步骤243、选择所述文本匹配度大于预设匹配度的第二待选习题内容,并将所选择的第二待选习题内容作为第一待选习题内容。
预设匹配度的具体值可以根据历史经验数据设定。文本匹配度高于预设匹配度时,说明第二待选习题内容中的习题题目与目标习题题目之间的相似度高,因此,可以该第二待选习题内容作为最终搜索到的待选习题内容,即作为第一待选习题内容。可以理解,第一待选习题内容可以认识是对第二待选习题内容进行筛选后得到的待选习题内容。通过设定预设匹配度,可以保证第一待选习题内容与目标习题题目之间具有较高的相似度,减小后续处理的复杂度。
另一实施例中,在基于文本数据进行搜索时,为了减小搜索范围,设定步骤240包括步骤244-步骤245:
步骤244、根据所述视频数据对应的视频标签,搜索满足于所述视频标签的第三待选习题内容。
获取视频数据对应的视频标签,并基于视频标签在现有的习题库或互联网中搜索满足视频标签的待选习题内容,该待选习题内容中包含习题题目以及对应的习题答案,实施例中,将满足视频标签的待选习题内容记为第三待选习题内容。可选的,习题库或互联网中每个习题题目均有对应的习题标签,之后,可以通过匹配习题标签与视频标签的方式得到第三待选习题内容。一般而言,第三待选习题内容为多个。
步骤245、在所述第三待选习题内容中,搜索与所述文本数据对应的第三待选习题内容,并将搜索得到的第三待选习题内容作为第一待选习题内容。
在第三待选习题内容中,计算各习题题目与文本数据之间的文本匹配度,并按照文本匹配度选择第三待选习题内容,之后,将选择的第三待选习题内容记为第一待选习题内容。其中,按照文本匹配度选择第三待选习题内容时,可以是选择文本匹配度大于预设匹配度的第三待选习题内容。
举例而言,视频标签包含所讲述知识点、所讲述知识点所属的年级、科目、使用的教材、使用教材所属的出版社、使用教材所适用的地区。先搜索与视频标签中记录的知识点、年级、科目、使用的教材、出版社、地区相符的第三待选习题内容。之后,计算第三待选习题内容中的习题题目与文本数据之间的文本匹配度,并基于文本匹配度选择高于预设匹配度的第三待选习题内容作为第一待选习题内容。通过上述方式,可以保证第一待选习题内容的准确性且减小基于文本数据进行搜索时的搜索范围。
步骤250、确认所述第一待选习题内容包含的习题题目与所述目标习题题目是否一致。若一致,则步骤260。若不一致,则执行步骤290。
典型的,确认第一待选习题内容包含的习题题目与目标习题题目是否一致。其中,确认方式实施例不作限定,例如,当习题题目与文本数据之间的文本匹配度为百分之百时,可以认为习题题目与目标习题题目一致,否则认为不一致。或者是,通知技术人员采用人工的方式确认习题题目与目标习题题目是否一致。
当习题题目与目标习题题目一致时,说明搜索到了目标习题题目的原题,此时,执行步骤260。当习题题目与目标习题题目不一致时,说明未搜索到目标习题题目的原题,此时,执行步骤290。
步骤260、将所述第一待选习题内容确认为所述文本数据对应的习题内容。
即将第一待选习题内容确认为习题内容。
步骤270、建立所述视频数据与所述习题内容的关联关系,并确认所述习题内容是否已经保存在习题库中。确认若所述习题内容已经保存在习题库中,则执行步骤280,否则,执行步骤2110。
将视频数据和习题内容加入习题库时,先判断习题内容是否已经保存在习题库中,即获取习题内容的搜索路径,以确认是否在习题库中搜索到该习题内容。若是,则说明习题库中已经保存了该习题内容,无需再次保存,因此,执行步骤280,否则,说明习题库中未保存该习题内容,因此,执行步骤2110。
步骤280、将所述视频数据保存至所述习题库中。
具体的,将视频数据关联保存至习题库中,此时,在习题库中,基于视频数据可以得到关联的习题内容,或者,基于习题内容可以得到关联的视频数据。
步骤290、获取针对于所述文本数据的人工编辑结果,所述人工编辑结果包括人工编辑的所述目标习题题目和习题答案。
为了保证习题内容的准确性,实施例中,当习题题目与目标习题题目不一致时,采用人工编辑的方式得到习题内容,其中,由技术人员编辑目标习题题目以及对应的习题答案,并发送至题目入库设备中。此时,题目入库设备获取人工编辑的内容并记为人工编辑结果。
可选的,人工编辑时,可以是基于目标习题题目直接编辑对应的习题答案,还可以是获取第一待选习题内容中的习题答案,并对习题答案进行修改,以得到目标习题内容的习题答案。还可选的,编辑习题内容时,同步编辑对应的习题标签。
步骤2100、将所述人工编辑结果确认为所述文本数据对应的习题内容。
步骤2110、建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
具体的,由于习题内容未保存在习题库中,因此,建立视频数据与习题内容的关联关系后,将视频数据和习题内容一同保存至习题库中。可选的,保存习题内容时,同步保存对应的习题标签。
上述,通过获取包含目标习题题目的视频数据,之后,获取视频数据中的播放数据,并识别播放数据得到目标习题题目对应的文本数据,可以实现目标习题题目的自动获取。之后,基于文本数据进行搜索,以得到第一待选习题内容,当第一待选习题内容包含的习题题目与目标习题题目一致时,确认搜索到原题,此时,建立视频数据与习题内容的关联关系。之后,若习题内容已经保存在习题库中,则仅将视频数据保存在习题库中,若习题内容未保存在习题库时,则将视频数据和习题内容一同保存在习题库中。当第一待选习题内容包含的习题题目与目标习题题目不一致时,获取人工编辑的习题内容,并建立视频数据与习题内容的关联关系,之后,将视频数据和习题内容一同保存在习题库中。上述技术手段可以实现扩充习题库,即在习题库中保存与习题内容有关的视频数据,便于在视频教学中实现通过视频数据搜索对应的习题,增强了视频学习的便利性,提升了学生的使用体验。
图3为本申请实施例提供的一种题目入库装置的结构示意图,参考图3,该题目入库装置包括:数据获取模块301、数据识别模块302、内容确定模块303以及视频入库模块304。
其中,数据获取模块301,用于获取包含目标习题题目的视频数据;数据识别模块302,用于识别所述视频数据中的所述目标习题题目,以得到文本数据;内容确定模块303,用于根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;视频入库模块304,用于建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
上述,通过获取包含目标习题题目的视频数据,之后,识别视频数据中的目标习题题目,以得到文本数据,并基于文本数据确认对应的习题内容,之后,建立习题内容与视频数据的关联关系,并将视频数据与习题内容关联保存至习题库中的技术手段,可以实现构建一种满足视频教学搜题需求的习题库,解决了基于文字构建的习题库无法满足视频教学中搜题需求的技术问题。将包含习题题目的视频数据以及对应的习题题目及习题答案存入习题库,可以在视频教学中实现通过视频数据搜索对应的习题,增强了视频学习的便利性,提升了学生的使用体验。
在上述实施例的基础上,内容确定模块303包括:第一待选确认单元,用于根据所述文本数据进行搜索,以得到第一待选习题内容;题目确认单元,用于确认所述第一待选习题内容包含的习题题目与所述目标习题题目是否一致;第一内容确认单元,用于若一致,则将所述第一待选习题内容确认为所述文本数据对应的习题内容,所述习题内容包括目标习题题目和习题答案。相应的,视频入库模块304具体用于:建立所述视频数据与所述习题内容的关联关系,并确认若所述习题内容已经保存在习题库中,则将所述视频数据保存至所述习题库中。
在上述实施例的基础上,所述题目入库装置,还包括:编辑获取模块,用于若第一待选习题内容包含的习题题目与所述目标习题题目不一致,则获取针对于所述文本数据的人工编辑结果,所述人工编辑结果包括人工编辑的所述目标习题题目和习题答案;第二内容确认模块,用于将所述人工编辑结果确认为所述文本数据对应的习题内容。
在上述实施例的基础上,所述第一待选确认单元包括:第二待选确认子单元,用于根据所述文本数据进行搜索,得到多个第二待选习题内容;匹配度获取子单元,用于获取各所述第二待选习题内容与所述文本数据之间的文本匹配度;内容选择子单元,用于选择所述文本匹配度大于预设匹配度的第二待选习题内容,并将所选择的第二待选习题内容作为第一待选习题内容。
在上述实施例的基础上,所述第一待选确认单元包括:第三待选确认子单元,用于根据所述视频数据对应的视频标签,搜索满足于所述视频标签的第三待选习题内容;内容搜索子单元,用于在所述第三待选习题内容中,搜索与所述文本数据对应的第三待选习题内容,并将搜索得到的第三待选习题内容作为第一待选习题内容。
在上述实施例的基础上,数据识别模块302包括:播放数据获取单元,用于获取所述视频数据中包含所述目标习题题目的播放数据,所述播放数据包括:对所述视频数据进行截图得到的图片数据和/或所述视频数据中的音频数据;播放数据识别单元,用于识别所述播放数据以得到对应的文本数据。
在上述实施例的基础上,还包括:文字清洗模块,用于识别所述播放数据以得到对应的文本数据之后,对所述文本数据进行文字清洗,以剔除所述文本数据中的无效文本。
本实施例提供的题目入库装置包含在题目入库设备中,可以用于执行上述任意实施例提供的题目入库方法,具备相应的功能和有益效果。
值得注意的是,上述题目入库装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图4为本申请实施例提供的一种题目入库设备的结构示意图。具体的,如图4所示,该题目入库设备包括处理器40、存储器41、输入装置42以及输出装置43;该题目入库设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;该题目入库设备中的处理器40、存储器41、输入装置42以及输出装置43可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的题目入库方法中的程序指令/模块(例如,题目入库装置中的数据获取模块301、数据识别模块302、内容确定模块303以及视频入库模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行题目入库设备的各种功能应用以及数据处理,即实现上述任意实施例提供的题目入库方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据题目入库设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至题目入库设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与题目入库设备的用户设置以及功能控制有关的键信号输入,还可作为图像采集装置(如摄像头)、音频采集装置(如麦克风)等。输出装置43可包括显示屏、扬声器等设备。此外,题目入库设备还可以包括通信装置(图未示),该通信装置可与其他设备进行数据通信。
上述题目入库设备可以用于执行任意实施例提供的题目入库方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种题目入库方法,该方法包括:
获取包含目标习题题目的视频数据;
识别所述视频数据中的所述目标习题题目,以得到文本数据;
根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;
建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的题目入库方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的题目入库方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种题目入库方法,其特征在于,包括:
获取包含目标习题题目的视频数据;
识别所述视频数据中的所述目标习题题目,以得到文本数据;
根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;
建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
2.根据权利要求1所述的题目入库方法,其特征在于,所述根据所述文本数据确认对应的习题内容包括:
根据所述文本数据进行搜索,以得到第一待选习题内容;
确认所述第一待选习题内容包含的习题题目与所述目标习题题目是否一致;
若一致,则将所述第一待选习题内容确认为所述文本数据对应的习题内容;
相应的,所述将所述视频数据与所述习题内容关联保存至习题库中包括:
确认若所述习题内容已经保存在习题库中,则将所述视频数据保存至所述习题库中。
3.根据权利要求2所述的题目入库方法,其特征在于,还包括:
若不一致,则获取针对于所述文本数据的人工编辑结果,所述人工编辑结果包括人工编辑的所述目标习题题目和习题答案;
将所述人工编辑结果确认为所述文本数据对应的习题内容。
4.根据权利要求2所述的题目入库方法,其特征在于,所述根据所述文本数据进行搜索,以得到第一待选习题内容包括:
根据所述文本数据进行搜索,得到多个第二待选习题内容;
获取各所述第二待选习题内容与所述文本数据之间的文本匹配度;
选择所述文本匹配度大于预设匹配度的第二待选习题内容,并将所选择的第二待选习题内容作为第一待选习题内容。
5.根据权利要求2所述的题目入库方法,其特征在于,所述根据所述文本数据进行搜索,以得到第一待选习题内容包括:
根据所述视频数据对应的视频标签,搜索满足于所述视频标签的第三待选习题内容;
在所述第三待选习题内容中,搜索与所述文本数据对应的第三待选习题内容,并将搜索得到的第三待选习题内容作为第一待选习题内容。
6.根据权利要求1所述的题目入库方法,其特征在于,所述识别所述视频数据中的所述目标习题题目,以得到文本数据包括:
获取所述视频数据中包含所述目标习题题目的播放数据,所述播放数据包括:对所述视频数据进行截图得到的图片数据和/或所述视频数据中的音频数据;
识别所述播放数据以得到对应的文本数据。
7.根据权利要求6所述的题目入库方法,其特征在于,所述识别所述播放数据以得到对应的文本数据之后,还包括:
对所述文本数据进行文字清洗,以剔除所述文本数据中的无效文本。
8.一种题目入库装置,其特征在于,包括:
数据获取模块,用于获取包含目标习题题目的视频数据;
数据识别模块,用于识别所述视频数据中的所述目标习题题目,以得到文本数据;
内容确定模块,用于根据所述文本数据确认对应的习题内容,所述习题内容包括目标习题题目和习题答案;
视频入库模块,用于建立所述视频数据与所述习题内容的关联关系,并将所述视频数据与所述习题内容关联保存至习题库中。
9.一种题目入库设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的题目入库方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的题目入库方法。
CN202010302222.4A 2020-04-16 2020-04-16 题目入库方法、装置、设备及存储介质 Pending CN111522992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302222.4A CN111522992A (zh) 2020-04-16 2020-04-16 题目入库方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302222.4A CN111522992A (zh) 2020-04-16 2020-04-16 题目入库方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111522992A true CN111522992A (zh) 2020-08-11

Family

ID=71902346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302222.4A Pending CN111522992A (zh) 2020-04-16 2020-04-16 题目入库方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111522992A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186095A (zh) * 2021-12-08 2022-03-15 北京字节跳动网络技术有限公司 一种信息搜索方法、装置、计算机设备及存储介质
CN114466150A (zh) * 2022-04-11 2022-05-10 北京十六进制科技有限公司 一种视频自动录制方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365970A (zh) * 2013-06-25 2013-10-23 广东小天才科技有限公司 自动获取学习资料信息的方法和装置
CN103971553A (zh) * 2014-05-29 2014-08-06 深圳图瑞交互信息技术有限公司 反馈式教学系统和反馈式教学方法
CN106062855A (zh) * 2014-11-03 2016-10-26 天才工厂 电子装置及利用该电子装置的学习信息提供方法
CN107247732A (zh) * 2017-05-05 2017-10-13 广州盈可视电子科技有限公司 一种教学视频的习题匹配方法、装置和一种录播系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365970A (zh) * 2013-06-25 2013-10-23 广东小天才科技有限公司 自动获取学习资料信息的方法和装置
CN103971553A (zh) * 2014-05-29 2014-08-06 深圳图瑞交互信息技术有限公司 反馈式教学系统和反馈式教学方法
CN106062855A (zh) * 2014-11-03 2016-10-26 天才工厂 电子装置及利用该电子装置的学习信息提供方法
CN107247732A (zh) * 2017-05-05 2017-10-13 广州盈可视电子科技有限公司 一种教学视频的习题匹配方法、装置和一种录播系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186095A (zh) * 2021-12-08 2022-03-15 北京字节跳动网络技术有限公司 一种信息搜索方法、装置、计算机设备及存储介质
CN114466150A (zh) * 2022-04-11 2022-05-10 北京十六进制科技有限公司 一种视频自动录制方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10642892B2 (en) Video search method and apparatus
CN109275046B (zh) 一种基于双视频采集的教学数据标注方法
CN108520046B (zh) 搜索聊天记录的方法及设备
CN111522970A (zh) 习题推荐方法、装置、设备及存储介质
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
US7099894B2 (en) Multimedia information collection control apparatus and method
CN101202864A (zh) 动画再现装置
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN111524206A (zh) 一种生成思维导图的方法和装置
CN109408672B (zh) 一种文章生成方法、装置、服务器及存储介质
CN110753256B (zh) 录像回放的方法、装置、存储介质及计算机设备
CN107330040B (zh) 一种学习题目搜索方法及其系统
CN111610901B (zh) 一种基于ai视觉下的英语课文辅助教学方法及系统
CN111522992A (zh) 题目入库方法、装置、设备及存储介质
CN113254708A (zh) 一种视频搜索方法、装置、计算机设备及存储介质
CN109344325B (zh) 基于智能会议平板的信息的推荐方法和装置
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN111542817A (zh) 信息处理装置、视频检索方法、生成方法及程序
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
BE1023431B1 (nl) Automatische identificatie en verwerking van audiovisuele media
CN114546939A (zh) 会议纪要生成方法、装置、电子设备和可读存储介质
CN114863448A (zh) 答题统计方法、装置、设备及存储介质
CN114173191A (zh) 一种基于人工智能的多语言答疑方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811