CN111405374A - 一种视频进度节点生成方法、装置、设备及存储介质 - Google Patents
一种视频进度节点生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111405374A CN111405374A CN202010301557.4A CN202010301557A CN111405374A CN 111405374 A CN111405374 A CN 111405374A CN 202010301557 A CN202010301557 A CN 202010301557A CN 111405374 A CN111405374 A CN 111405374A
- Authority
- CN
- China
- Prior art keywords
- node
- video
- keywords
- source file
- progress
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 6
- 239000002609 medium Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种视频进度节点生成方法、装置、设备及存储介质。本申请实施例提供的技术方案通过ASR语音识别技术对视频源文件的音频进行语音识别,得到语音识别内容,在标题数据库中获取该领域对应的关键词,并在语音识别内容中检索对应领域的关键词,在检索到语音识别内容中存在对应领域的关键词时,确定这些关键词分别在语音识别内容中首次出现的关键时间节点,并根据该关键时间节点确定在视频源文件中的进度时间节点,并在该进度时间节点中添加关键词作为节点标题,并将添加节点标题的进度节点作为视频进度节点,完成对视频源文件进度节点的自动添加,提高视频节点的添加效率。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种视频进度节点生成方法、装置、设备及存储介质。
背景技术
随着科学技术的发展,人们学习的方式也越来越多元化,除了可以通过教师现场教学的方式进行学习外,还可以通过观看视频的方式进行学习。视频学习摆脱了对教师、场地和时间上的依赖,极大地方便了学生的学习。
为了方便用户快速跳转到视频上的某个位置,例如跳转到某个知识点开始的位置,一般在视频上根据视频讲解内容设置多个进度节点,在播放视频时,通过点击视频节点即可跳转到视频中对应的位置,方便用户的视频跳转操作。
目前,对视频进度节点的添加一般是用过人工进行,导致视频进度节点的添加效率低下。
发明内容
本申请实施例提供一种视频进度节点生成方法、装置、设备及存储介质,以对自动生成视频进度节点,提高视频节点的添加效率。
在第一方面,本申请实施例提供了一种视频进度节点生成方法,包括:
通过ASR语音识别得到视频源文件对应的语音识别内容;
获取标题数据库中所述视频源文件对应领域的关键词;
在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;
基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
进一步的,所述获取标题数据库中所述视频源文件对应领域的关键词,包括:
获取视频源文件中的领域特征信息;
基于所述领域特征信息确定所述视频源文件对应的领域;
基于所述领域在标题数据库中确定关键词,所述标题数据库记录有多个领域对应的关键词。
进一步的,所述关键词包括专业关键词和通用关键词;
所述基于所述领域特征信息确定所述视频源文件对应的领域,包括:
基于所述领域特征信息确定所述视频源文件对应的专业领域以及通用领域;
所述基于所述领域在标题数据库中确定关键词,包括:
基于所述专业领域在标题数据库中确定专业关键词,并基于所述通用领域在标题数据库中确定通用关键词。
进一步的,所述通过ASR语音识别得到视频源文件对应的语音识别内容之前,还包括:
读取视频源文件,并响应于领域选择操作确定所述视频源文件对应的领域。
进一步的,所述语音识别内容包括文字文本和文字时间戳,所述文字时间戳用于记录文字文本中的文字在所述视频源文件中的时间节点;
所述在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点,包括:
在所述文字文本中检索所述关键词,确定在所述文字文本中出现的关键词;
基于所述文字时间戳,确定各个关键词在所述文字文本中首次出现的关键时间节点。
进一步的,所述通过ASR语音识别得到视频源文件对应的语音识别内容之前,还包括:
获取多个领域的关键词,基于每个领域对应的关键词建立标题数据库。
进一步的,所述基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点之后,还包括:
对所述视频进度节点进行展示;
响应于对所述视频进度节点的更新操作,对所述视频源文件上的视频进度节点进行更新。
在第二方面,本申请实施例提供了一种视频进度节点生成装置,包括语音识别模块、关键词确定模块、关键词检索模块和节点生成模块,其中:
语音识别模块,用于通过ASR语音识别得到视频源文件对应的语音识别内容;
关键词确定模块,用于获取标题数据库中所述视频源文件对应领域的关键词;
关键词检索模块,用于在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;
节点生成模块,用于基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
进一步的,所述关键词确定模块具体用于:
获取视频源文件中的领域特征信息;
基于所述领域特征信息确定所述视频源文件对应的领域;
基于所述领域在标题数据库中确定关键词,所述标题数据库记录有多个领域对应的关键词。
进一步的,所述关键词包括专业关键词和通用关键词;
所述关键词确定模块在基于所述领域特征信息确定所述视频源文件对应的领域时,具体为:
基于所述领域特征信息确定所述视频源文件对应的专业领域以及通用领域;
所述关键词确定模块在基于所述领域在标题数据库中确定关键词时,具体为:
基于所述专业领域在标题数据库中确定专业关键词,并基于所述通用领域在标题数据库中确定通用关键词。
进一步的,所述装置还包括视频读取模块,用于在语音识别模块通过ASR语音识别得到视频源文件对应的语音识别内容之前,读取视频源文件,并响应于领域选择操作确定所述视频源文件对应的领域。
进一步的,所述语音识别内容包括文字文本和文字时间戳,所述文字时间戳用于记录文字文本中的文字在所述视频源文件中的时间节点;
所述关键词检索模块具体用于:在所述文字文本中检索所述关键词,确定在所述文字文本中出现的关键词,并基于所述文字时间戳,确定各个关键词在所述文字文本中首次出现的关键时间节点。
进一步的,所述装置还包括数据库建立模块,用于在语音识别模块通过ASR语音识别得到视频源文件对应的语音识别内容之前,获取多个领域的关键词,基于每个领域对应的关键词建立标题数据库。
进一步的,所述装置还包括节点展示模块,用于在节点生成模块基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点之后,对所述视频进度节点进行展示,并响应于对所述视频进度节点的更新操作,对所述视频源文件上的视频进度节点进行更新。
在第三方面,本申请实施例提供了一种计算机设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的视频进度节点生成方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的视频进度节点生成方法。
本申请实施例通过ASR语音识别技术对视频源文件的音频进行语音识别,得到语音识别内容,在标题数据库中获取该领域对应的关键词,并在语音识别内容中检索对应领域的关键词,在检索到语音识别内容中存在对应领域的关键词时,确定这些关键词分别在语音识别内容中首次出现的关键时间节点,并根据该关键时间节点确定在视频源文件中的进度时间节点,并在该进度时间节点中添加关键词作为节点标题,并将添加节点标题的进度节点作为视频进度节点,完成对视频源文件进度节点的自动添加,提高视频节点的添加效率。
附图说明
图1是本申请实施例提供的一种视频进度节点生成方法的流程图;
图2是本申请实施例提供的另一种视频进度节点生成方法的流程图;
图3是本申请实施例提供的一种视频进度节点生成装置的结构示意图;
图4是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种视频进度节点生成方法的流程图,本申请实施例提供的视频进度节点生成方法可以由视频进度节点生成装置来执行,该视频进度节点生成装置可以通过硬件和/或软件的方式实现,并集成在计算机设备中。
下述以视频进度节点生成装置执行视频进度节点生成方法为例进行描述。参考图1,该视频进度节点生成方法包括:
S101:通过ASR语音识别得到视频源文件对应的语音识别内容。
其中,ASR(Automatic Speech Recognition,语音识别技术)用于将人类语音中的词汇内容转换为计算机可读的内容,将音频数据转换为文本数据。
示例性的,在需要对视频源文件添加视频进度节点时,选择并读取对应的视频源文件,并抓取视频源文件的音频数据,将音频数据输入到ASR程序中进行语音识别,由ASR程序对音频数据进行语音识别并生成语音识别内容。其中,语音识别内容包括文字文本(txt文本)和文字时间戳,文字时间戳用于记录文字文本中的文字或词汇在音频数据或视频源文件中的时间节点。
S102:获取标题数据库中所述视频源文件对应领域的关键词。
示例性的,标题数据库中保存有多个领域(例如语文、数学、历史等领域)的多个关键词(例如课文标题、函数名称、历史事件等)。
具体的,根据视频源文件所对应的领域,在标题数据库中获取该领域的所有关键词。进一步的,在获取对应领域的关键词后,可将这些关键词保存在缓存列表中。其中,视频源文件对应领域的确定可通过视频源文件的文件名、标签等进行确定,或者是基于用户的主动选择确定。
可以理解的是,关键词的获取可在对视频源文件进行ASR语音识别之前或之后进行,即步骤S101和步骤S102的先后顺序不影响实施例的正常进行,本实施例以成功获取视频源文件的语音识别内容后,再根据视频源文件对应的领域获取关键词为例进行描述。
S103:在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点。
示例性的,在获取视频源文件的语音识别内容和对应领域的关键词后,遍历获取的每一个关键词,在语音识别内容(文字文本)中检索关键词。
进一步的,在语音识别内容中检索到与关键词一致或相近的文字后,确定该文字对应的时间戳,并确定该文字在语音识别内容中首次出现的时间戳,并将该时间戳确定为语音识别内容中首次出现对应关键词的关键时间节点。
其中,文字首次出现的时间戳可以理解为对应文字的所有时间戳中距离时间起点最短的时间戳,或者是在首次检索到与关键词对应的文字时,直接将该文字对应的时间戳确定为首次出现的时间戳。
S104:基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
示例性的,在遍历所有对应领域的关键词并确定语音识别内容中的关键时间节点后,根据这些关键时间节点在视频源文件中确定进度时间节点。
可选的,由于语音识别内容的时间与视频源文件的时间一致,即语音识别内容和视频源文件在时间上是同步的,可直接将语音识别内容中的各个关键时间节点作为视频源文件中的进度时间节点。
进一步的,在确定视频源文件上的各个进度时间节点后,根据每个进度时间节点和关键词的对应关系,在各个进度时间节点中添加对应的关键词,并将添加关键词作为标题后的时间节点作为视频进度时间节点。
可以理解的是,在播放添加视频进度时间节点的视频源文件时,会在视频播放进度条上对应时间节点上显示各个视频进度时间节点,点击对应的视频进度时间节点后可将视频源文件的播放进度跳转到对应的时间节点上,播放对应关键词首次出现时的视频内容。可选的,可在鼠标悬停在视频进度时间节点的设定范围内时,可显示该视频进度节点对应的标题(关键词)。
在一个实施例中,在播放界面中选中或点击视频进度节点时,可将视频源文件的播放进度跳转至视频进度节点之前的设定时间长度中(如1秒钟),方便用户可观看到更完整的相关内容。或者在基于关键时间节点在视频源文件中确定进度时间节点时,将进度时间节点确定为关键时间节点往前的设定时间长度上。
上述,通过ASR语音识别技术对视频源文件的音频进行语音识别,得到语音识别内容,在标题数据库中获取该领域对应的关键词,并在语音识别内容中检索对应领域的关键词,在检索到语音识别内容中存在对应领域的关键词时,确定这些关键词分别在语音识别内容中首次出现的关键时间节点,并根据该关键时间节点确定在视频源文件中的进度时间节点,并在该进度时间节点中添加关键词作为节点标题,并将添加节点标题的进度节点作为视频进度节点,完成对视频源文件进度节点的自动添加,提高视频节点的添加效率。
图2为本申请实施例提供的另一种视频进度节点生成方法的流程图,该视频进度节点生成方法是对上述视频进度节点生成方法的具体化。参考图2,该视频进度节点生成方法包括:
S201:获取多个领域的关键词,基于每个领域对应的关键词建立标题数据库。
具体的,收集多个领域的关键词,并针对各个领域建立对应的词汇群,用于保存该领域的领域群的关键词。
可选的,将领域划分为专业领域和通用领域,相应的,所述关键词包括专业关键词和通用关键词。其中,专业领域可以理解为根据专业进行划分的领域,例如语文、数学、物理、化学等,对应的专业关键词可以是文章标题、算法名称、物理定义、化学反应名称等。通用领域可以理解为在各个专业领域均可通用的领域,对应的通用关键词可以是第一章、第一节、练习题等标题性内容。可以理解的是,存在不同领域的关键词一致的情况。
进一步的,在收集到多个领域的关键词后,基于这些关键词建立标题数据库,在标题数据库中根据每个领域设置一个领域群,用于保存对应领域的关键词。根据领域即可检索到对应的领域群,并读取领域群中的关键词。
S202:通过ASR语音识别得到视频源文件对应的语音识别内容,所述语音识别内容包括文字文本和文字时间戳。
在本实施例中,所述语音识别内容包括文字文本和文字时间戳,所述文字时间戳用于记录文字文本中的文字在所述视频源文件中的时间节点。可以理解的是,本子文本中的每个文字(单个文字或词汇,可根据NLP(Natural Language Processing)自然语义分析技术对词汇进行划分)均对应有一个文字时间戳。
具体的,在需要对视频源文件添加视频进度节点时,选择并读取对应的视频源文件,并抓取视频源文件的音频数据,将音频数据输入到ASR程序中进行语音识别,由ASR程序对音频数据进行语音识别并生成语音识别内容。
S203:获取视频源文件中的领域特征信息,并基于所述领域特征信息确定所述视频源文件对应的领域。
其中,领域特征信息应理解为可以对视频源文件对应的领域进行判断的信息,例如,可将视频源文件的文件名、标签、标记、备注等详细信息作为领域特征信息。
示例性的,在确定视频源文件后,读取该视频源文件中的领域特征信息,将领域特征信息与各个领域进行匹配,并将匹配到的领域作为该视频源文件对应的领域。可选的,将匹配到的领域展示给用户,由用户对这些领域进行确定和修改。
在本实施例中,将领域划分为专业领域和通用领域,在基于所述领域特征信息确定所述视频源文件对应的领域时,具体为:基于所述领域特征信息确定所述视频源文件对应的专业领域以及通用领域。
具体的,获取视频源文件中的领域特征信息,将各个专业领域对应的名称或标题在领域特征信息中进行匹配,在匹配到相近或一致的专业领域时,认为该专业领域为视频源文件对应的专业领域。例如,假设视频源文件的文件名或标题中有数学的词汇,则在对领域进行匹配时,可匹配到对应于数字的专业领域。可选的,可将通用领域作为一个默认选择的领域,用户可根据实际需要进行修改。
在其他实施例中,对视频源文件对应领域的确定还可以是响应于用户的领域选择操作进行。具体为:读取视频源文件,并响应于领域选择操作确定所述视频源文件对应的领域。
具体的,在需要对视频源文件进行视频进度节点添加时,读取用户选中的视频源文件,并根据用户的领域选择操作确定该视频源文件对应的领域。
其中,用户的领域选择操作可以是在用户选中视频源文件前后选中视频源文件后,向用户提供领域选择列表,用户可在领域选择列表中选择视频源文件对应的领域。可以理解的是,领域的选择可以是单选或多选,例如一个视频源文件中会对多个领域的知识点进行讲解,此时用户可选择多个对应的专业领域。
S204:基于所述领域在标题数据库中确定关键词,所述标题数据库记录有多个领域对应的关键词。
示例性的,在确定视频源文件的专业领域以及通用领域后,基于领域在标题数据库中确定关键词。具体为:基于所述专业领域在标题数据库中确定专业关键词,并基于所述通用领域在标题数据库中确定通用关键词。
具体的,根据确定的专业领域,获取对应词汇群中的专业关键词,并在确定的通用领域的词汇群中获取通用关键词。可选的,在获取专业关键词和通用关键词后,将关键词保存在缓存列表中,对本次添加视频进度节点所使用的关键词进行缓存。
S205:在所述文字文本中检索所述关键词,确定在所述文字文本中出现的关键词。
具体的,在确定视频源文件对应领域(专业领域和通用领域)的关键词(专业关键词和通用关键词)后,遍历关键词,在经ASR语音识别得到的文字文本中对这些关键词进行检索,从而确定在文字文本中出现的关键词。
可选的,可对文字文本的全文进行检索,找到文字文本中全部与关键词对应的文字,或者按照时间的先后顺序从文字文本的开头开始检索,在检索到一个与当前关键词对应的文字后,对该位置中与关键词对应的文字进行记录,并重新开始下一个关键词的检索,直至完成所有对应领域关键词的检索操作,从而确定所有在文字文本中出现的关键词。
可以理解的是,并非所有的关键词均会在文字文本中出现。并且在视频源文件对应到多个领域并且存在重复的关键词时,可对重复的关键词进行排重,只保留一个重复的关键词。
S206:基于所述文字时间戳,确定各个关键词在所述文字文本中首次出现的关键时间节点。
示例性的,在确定检索到文字文本中出现的关键词后,对这些关键词在文字文本中首次出现的时间节点进行确定,并将这些时间节点确定为各个关键词出现的关键时间节点。
具体的,若在检索关键词时,对文字文本中全部与关键词对应的文字进行检索,则根据这些文字对应的文字时间戳确定每个关键词对应的文字的时间先后顺序,并将时间最前的文字时间戳确定为对应关键词在文字文本中首次出现的关键时间节点。若在检索关键词时,直接确定文字文本中第一个与关键词对应的文字,则直接将该文字对应的文字时间戳确定为对应关键词在文字文本中首次出现的关键时间节点。
S207:基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
S208:对所述视频进度节点进行展示,并响应于对所述视频进度节点的更新操作,对所述视频源文件上的视频进度节点进行更新。
具体的,在确定视频源文件中的视频进度节点后,在节点编辑交互界面中对视频进度节点进行展示。对视频进度节点的展示可以是在视频源文件的进度条上进行展示,并同步展示对应的关键词(节点标题)以及时间戳信息(视频源文件的播放进度时间),或者是在节点编辑列表中显示展示对应的关键词以及时间戳信息。
进一步的,在需要对视频进度节点进行更改时,可对展示的视频进度节点进行更新操作。例如,对视频进度节点的时间戳信息(可通过在进度条上拖动视频进度节点或直接对时间戳信息对应的时间数字进行修改)、关键词等进行改动,并基于用户的更改操作确定对视频进度节点的更新操作,并对视频源文件上的视频进度节点进行更新,例如更新视频进度节点的关键词和/或时间戳信息。
进一步的,在确定视频进度节点后,可响应于用户的确认操作对添加视频进度节点后的视频源文件进行保存。用户在播放该视频源文件时,可在视频播放界面上显示视频进度节点,用户点击视频进度节点后,将视频的播放进度跳转到视频进度节点对应的播放进度中。
示例性的,假设用户在选中视频源文件进行视频进度节点的添加后,并确定视频源文件对应的领域为数学(专业领域)和练习题(通用领域),并获取这两个领域的关键词,例如确定的关键词分别为“勾股定理”和“第一题”。
同时,对视频源文件进行ASR语音识别得到文字文本和文字时间戳,在文字文本中检索“勾股定理”和“第一题”这两个关键词,并根据文字时间戳确定这两个关键词在语音识别内容中首次出现的关键时间节点,然后在视频源文件与关键时间节点对应的时间节点中生成视频进度节点,并添加对应关键词作为节点标题,例如,分别在两个视频进度节点中添加“勾股定理”和“第一题”作为节点标题,并完成该视频源文件的视频进度节点添加操作。
用户在播放该视频源文件时,在视频播放界面上显示以上两个视频进度节点(例如在播放进度条对应进度节点上以亮点表示),并在用户选中或悬停在视频进度节点上时,对节点标题进行展示,并在点击视频进度节点后,将视频源文件的播放进度跳转至视频进度节点对应的播放进度。
例如,用户将手指或鼠标悬停在“勾股定理”对应的视频进度时间节点上时,再改视频进度节点的上方显示“勾股定理”以及对应的时间戳信息,并在用户点击“勾股定理”视频进度节点后,视频源文件的播放进度跳转到第一次出现“勾股定理”的相关语音的进度中,用户可对“勾股定理”相关的知识点进行观看,方便用户快速跳转到目标知识点中,提高学生学习效率。
上述,通过ASR语音识别技术对视频源文件的音频进行语音识别,得到语音识别内容,在标题数据库中获取该领域对应的关键词,并在语音识别内容中检索对应领域的关键词,在检索到语音识别内容中存在对应领域的关键词时,确定这些关键词分别在语音识别内容中首次出现的关键时间节点,并根据该关键时间节点确定在视频源文件中的进度时间节点,并在该进度时间节点中添加关键词作为节点标题,并将添加节点标题的进度节点作为视频进度节点,完成对视频源文件进度节点的自动添加,提高视频节点的添加效率。同时,将领域划分为专业领域和通用领域,提高视频进度节点确定的通用性。并在自动确定视频进度节点后面可响应于用户的更新操作对视频进度节点进行更新,提高对视频进度节点确定的准确性。
图3为本申请实施例提供的一种视频进度节点生成装置的结构示意图。参考图3,本实施例提供的视频进度节点生成装置包括语音识别模块31、关键词确定模块32、关键词检索模块33和节点生成模块34。
其中,语音识别模块31,用于通过ASR语音识别得到视频源文件对应的语音识别内容;关键词确定模块32,用于获取标题数据库中所述视频源文件对应领域的关键词;关键词检索模块33,用于在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;节点生成模块34,用于基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
上述,通过ASR语音识别技术对视频源文件的音频进行语音识别,得到语音识别内容,在标题数据库中获取该领域对应的关键词,并在语音识别内容中检索对应领域的关键词,在检索到语音识别内容中存在对应领域的关键词时,确定这些关键词分别在语音识别内容中首次出现的关键时间节点,并根据该关键时间节点确定在视频源文件中的进度时间节点,并在该进度时间节点中添加关键词作为节点标题,并将添加节点标题的进度节点作为视频进度节点,完成对视频源文件进度节点的自动添加,提高视频节点的添加效率。
在一个可能的实施例中,所述关键词确定模块32具体用于:
获取视频源文件中的领域特征信息;
基于所述领域特征信息确定所述视频源文件对应的领域;
基于所述领域在标题数据库中确定关键词,所述标题数据库记录有多个领域对应的关键词。
在一个可能的实施例中,所述关键词包括专业关键词和通用关键词;
所述关键词确定模块32在基于所述领域特征信息确定所述视频源文件对应的领域时,具体为:
基于所述领域特征信息确定所述视频源文件对应的专业领域以及通用领域;
所述关键词确定模块32在基于所述领域在标题数据库中确定关键词时,具体为:
基于所述专业领域在标题数据库中确定专业关键词,并基于所述通用领域在标题数据库中确定通用关键词。
在一个可能的实施例中,所述装置还包括视频读取模块,用于在语音识别模块31通过ASR语音识别得到视频源文件对应的语音识别内容之前,读取视频源文件,并响应于领域选择操作确定所述视频源文件对应的领域。
在一个可能的实施例中,所述语音识别内容包括文字文本和文字时间戳,所述文字时间戳用于记录文字文本中的文字在所述视频源文件中的时间节点;
所述关键词检索模块33具体用于:在所述文字文本中检索所述关键词,确定在所述文字文本中出现的关键词,并基于所述文字时间戳,确定各个关键词在所述文字文本中首次出现的关键时间节点。
在一个可能的实施例中,所述装置还包括数据库建立模块,用于在语音识别模块31通过ASR语音识别得到视频源文件对应的语音识别内容之前,获取多个领域的关键词,基于每个领域对应的关键词建立标题数据库。
在一个可能的实施例中,所述装置还包括节点展示模块,用于在节点生成模块34基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点之后,对所述视频进度节点进行展示,并响应于对所述视频进度节点的更新操作,对所述视频源文件上的视频进度节点进行更新。
本申请实施例还提供了一种计算机设备,该计算机设备可集成本申请实施例提供的视频进度节点生成装置。图4是本申请实施例提供的一种计算机设备的结构示意图。参考图4,该计算机设备包括:输入装置43、输出装置44、存储器42以及一个或多个处理器41;所述存储器42,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如上述实施例提供的视频进度节点生成方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算设备可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的视频进度节点生成方法对应的程序指令/模块(例如,视频进度节点生成装置中的语音识别模块31、关键词确定模块32、关键词检索模块33和节点生成模块34)。存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的视频进度节点生成方法。
上述提供的视频进度节点生成装置和计算机可用于执行上述实施例提供的视频进度节点生成方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的视频进度节点生成方法,该视频进度节点生成方法包括:通过ASR语音识别得到视频源文件对应的语音识别内容;获取标题数据库中所述视频源文件对应领域的关键词;在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的视频进度节点生成方法,还可以执行本申请任意实施例所提供的视频进度节点生成方法中的相关操作。
上述实施例中提供的视频进度节点生成装置、设备及存储介质可执行本申请任意实施例所提供的视频进度节点生成方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的视频进度节点生成方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (10)
1.一种视频进度节点生成方法,其特征在于,包括:
通过ASR语音识别得到视频源文件对应的语音识别内容;
获取标题数据库中所述视频源文件对应领域的关键词;
在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;
基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
2.根据权利要求1所述的视频进度节点生成方法,其特征在于,所述获取标题数据库中所述视频源文件对应领域的关键词,包括:
获取视频源文件中的领域特征信息;
基于所述领域特征信息确定所述视频源文件对应的领域;
基于所述领域在标题数据库中确定关键词,所述标题数据库记录有多个领域对应的关键词。
3.根据权利要求2所述的视频进度节点生成方法,其特征在于,所述关键词包括专业关键词和通用关键词;
所述基于所述领域特征信息确定所述视频源文件对应的领域,包括:
基于所述领域特征信息确定所述视频源文件对应的专业领域以及通用领域;
所述基于所述领域在标题数据库中确定关键词,包括:
基于所述专业领域在标题数据库中确定专业关键词,并基于所述通用领域在标题数据库中确定通用关键词。
4.根据权利要求1所述的视频进度节点生成方法,其特征在于,所述通过ASR语音识别得到视频源文件对应的语音识别内容之前,还包括:
读取视频源文件,并响应于领域选择操作确定所述视频源文件对应的领域。
5.根据权利要求1所述的视频进度节点生成方法,其特征在于,所述语音识别内容包括文字文本和文字时间戳,所述文字时间戳用于记录文字文本中的文字在所述视频源文件中的时间节点;
所述在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点,包括:
在所述文字文本中检索所述关键词,确定在所述文字文本中出现的关键词;
基于所述文字时间戳,确定各个关键词在所述文字文本中首次出现的关键时间节点。
6.根据权利要求1-5任一项所述的视频进度节点生成方法,其特征在于,所述通过ASR语音识别得到视频源文件对应的语音识别内容之前,还包括:
获取多个领域的关键词,基于每个领域对应的关键词建立标题数据库。
7.根据权利要求1-5任一项所述的视频进度节点生成方法,其特征在于,所述基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点之后,还包括:
对所述视频进度节点进行展示;
响应于对所述视频进度节点的更新操作,对所述视频源文件上的视频进度节点进行更新。
8.一种视频进度节点生成装置,其特征在于,包括语音识别模块、关键词确定模块、关键词检索模块和节点生成模块,其中:
语音识别模块,用于通过ASR语音识别得到视频源文件对应的语音识别内容;
关键词确定模块,用于获取标题数据库中所述视频源文件对应领域的关键词;
关键词检索模块,用于在所述语音识别内容中检索所述关键词,确定所述语音识别内容中首次出现所述关键词的关键时间节点;
节点生成模块,用于基于所述关键时间节点在所述视频源文件中确定进度时间节点,并在所述进度时间节点中添加对应关键词作为视频进度节点。
9.一种计算机设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的视频进度节点生成方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的视频进度节点生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301557.4A CN111405374B (zh) | 2020-04-16 | 2020-04-16 | 一种视频进度节点生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301557.4A CN111405374B (zh) | 2020-04-16 | 2020-04-16 | 一种视频进度节点生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111405374A true CN111405374A (zh) | 2020-07-10 |
CN111405374B CN111405374B (zh) | 2022-07-22 |
Family
ID=71414118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010301557.4A Active CN111405374B (zh) | 2020-04-16 | 2020-04-16 | 一种视频进度节点生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111405374B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112040321A (zh) * | 2020-08-05 | 2020-12-04 | 西安猫兜灵智能科技有限公司 | 视频内容整体预览和精准跳转的方法、系统及电子设备 |
CN114564952A (zh) * | 2022-02-17 | 2022-05-31 | 北京达佳互联信息技术有限公司 | 一种文本标题生成方法、装置、设备及介质 |
CN114584830A (zh) * | 2020-12-02 | 2022-06-03 | 青岛海尔多媒体有限公司 | 用于处理视频的方法及装置、家电设备 |
CN114925223A (zh) * | 2022-05-27 | 2022-08-19 | 北京兰姆达科技有限公司 | 一种插入音频或视频的方法以及系统 |
CN117910557A (zh) * | 2024-01-10 | 2024-04-19 | 广东职业技术学院 | 一种数字媒体的信息处理方法、系统及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110154405A1 (en) * | 2009-12-21 | 2011-06-23 | Cambridge Markets, S.A. | Video segment management and distribution system and method |
CN102662982A (zh) * | 2012-03-14 | 2012-09-12 | 镇江畅远信息科技有限公司 | 一种文件检索系统 |
CN105956206A (zh) * | 2016-07-04 | 2016-09-21 | Tcl集团股份有限公司 | 一种基于关键词树的视频检索方法及系统 |
CN110719518A (zh) * | 2018-07-12 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 多媒体数据处理方法、装置和设备 |
CN110750679A (zh) * | 2019-09-05 | 2020-02-04 | 天脉聚源(杭州)传媒科技有限公司 | 一种基于关键词的视频搜索方法、系统、装置及存储介质 |
-
2020
- 2020-04-16 CN CN202010301557.4A patent/CN111405374B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110154405A1 (en) * | 2009-12-21 | 2011-06-23 | Cambridge Markets, S.A. | Video segment management and distribution system and method |
CN102662982A (zh) * | 2012-03-14 | 2012-09-12 | 镇江畅远信息科技有限公司 | 一种文件检索系统 |
CN105956206A (zh) * | 2016-07-04 | 2016-09-21 | Tcl集团股份有限公司 | 一种基于关键词树的视频检索方法及系统 |
CN110719518A (zh) * | 2018-07-12 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 多媒体数据处理方法、装置和设备 |
CN110750679A (zh) * | 2019-09-05 | 2020-02-04 | 天脉聚源(杭州)传媒科技有限公司 | 一种基于关键词的视频搜索方法、系统、装置及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112040321A (zh) * | 2020-08-05 | 2020-12-04 | 西安猫兜灵智能科技有限公司 | 视频内容整体预览和精准跳转的方法、系统及电子设备 |
CN114584830A (zh) * | 2020-12-02 | 2022-06-03 | 青岛海尔多媒体有限公司 | 用于处理视频的方法及装置、家电设备 |
CN114564952A (zh) * | 2022-02-17 | 2022-05-31 | 北京达佳互联信息技术有限公司 | 一种文本标题生成方法、装置、设备及介质 |
CN114925223A (zh) * | 2022-05-27 | 2022-08-19 | 北京兰姆达科技有限公司 | 一种插入音频或视频的方法以及系统 |
CN117910557A (zh) * | 2024-01-10 | 2024-04-19 | 广东职业技术学院 | 一种数字媒体的信息处理方法、系统及介质 |
CN117910557B (zh) * | 2024-01-10 | 2024-07-26 | 广东职业技术学院 | 一种数字媒体的信息处理方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111405374B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111405374B (zh) | 一种视频进度节点生成方法、装置、设备及存储介质 | |
US20210048988A1 (en) | Storing logical units of program code generated using a dynamic programming notebook user interface | |
JP5257330B2 (ja) | 発言記録装置、発言記録方法、プログラム及び記録媒体 | |
JP2019501466A (ja) | 検索エンジンの選択および最適化のための方法およびシステム | |
CN111523293A (zh) | 一种直播教学中辅助用户进行信息录入的方法及装置 | |
JP2008158511A (ja) | 音声データ検索用webサイトシステム | |
JP2010532897A (ja) | 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム | |
JP2021131862A (ja) | 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 | |
CN109857901B (zh) | 信息展示方法和装置、以及用于信息搜索的方法和装置 | |
CN113259763B (zh) | 教学视频处理方法、装置和电子设备 | |
WO2021129122A1 (zh) | 书籍查询页面的展示方法、电子设备及计算机存储介质 | |
JP2007012013A (ja) | 映像データ管理装置及び方法及びプログラム | |
JPH11224256A (ja) | 情報検索方法および情報検索プログラムを記録した記録媒体 | |
CN111723235B (zh) | 音乐内容识别方法、装置及设备 | |
CN115129922A (zh) | 搜索词生成方法、模型训练方法、介质、装置和设备 | |
CN111324626B (zh) | 基于语音识别的搜索方法、装置、计算机设备及存储介质 | |
CN107977395B (zh) | 一种帮助用户阅读并理解电子文章的方法及智能语音助手 | |
CN117827674A (zh) | 缺陷与测试用例的匹配方法、装置、电子设备和存储介质 | |
CN111935552A (zh) | 信息标注方法、装置、设备及介质 | |
CN111522992A (zh) | 题目入库方法、装置、设备及存储介质 | |
CN116343771A (zh) | 一种基于知识图谱的音乐点播语音指令识别方法、装置 | |
CN109710844A (zh) | 基于搜索引擎的快速准确定位文件的方法和设备 | |
JP2003208083A (ja) | 教材作成方法及び装置及び教材作成プログラム及び教材作成プログラムを格納した記憶媒体 | |
CN115858863A (zh) | 一种视频标签标注的方法和装置 | |
JP4597714B2 (ja) | 情報検索装置および方法ならびにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |