CN112543371A - 视频数据处理方法、装置、终端及存储介质 - Google Patents
视频数据处理方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN112543371A CN112543371A CN202011360473.4A CN202011360473A CN112543371A CN 112543371 A CN112543371 A CN 112543371A CN 202011360473 A CN202011360473 A CN 202011360473A CN 112543371 A CN112543371 A CN 112543371A
- Authority
- CN
- China
- Prior art keywords
- video data
- voice recognition
- data
- subdata
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 6
- 230000015654 memory Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视频数据处理方法、装置、终端及存储介质,该方法包括:提取视频数据中的音频数据;对音频数据进行语音识别,得到语音识别结果;根据语音识别结果确定多个关键词;根据关键词确定视频数据的标签,为视频数据配置标签。本发明能够将视频数据转换为音频数据,基于音频数据得到关键词,根据关键词确定视频数据的标签,实现机器自动化的为视频数据添加标签,无需人工添加标签,解放人工劳动力,同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置,提高视频数据的标签配置效率。
Description
技术领域
本发明实施例涉及互联网视频数据检索技术,尤其涉及一种视频数据处理方法、装置、终端及存储介质。
背景技术
目前随着在线教育行业的爆发,越来越多的用户愿意接受在线教育视频的学习。为了保证用户从海量的视频课程中找出自己感兴趣的内容,提出了视频课程检索方案。
目前,在进行视频检索时,首先为上传的视频配置标签,然后根据标签对视频数据进行检索。但是,上述标签需要由人工进行配置,随着视频数量的越来越多,人工为视频数据配置标签工作量巨大,费时费力,视频数据的标签配置效率低。
发明内容
本发明提供一种视频数据处理方法、装置、终端及存储介质,以实现由机器自动化的为视频数据配合标签,提高视频数据的标签配置效率。
第一方面,本发明实施例提供了一种视频数据处理方法,包括:
提取视频数据中的音频数据;
对音频数据进行语音识别,得到语音识别结果;
根据语音识别结果确定多个关键词;
根据关键词确定视频数据的标签,为视频数据配置标签。
第二方面,本发明实施例还提供了一种视频数据处理装置,包括:
音频提取模块,用于提取视频数据中的音频数据;
语音识别模块,用于对音频数据进行语音识别,得到语音识别结果;
关键词确定模块,用于根据语音识别结果确定多个关键词;
标签配置模块,用于根据关键词确定视频数据的标签,为视频数据配置标签。
第三方面,本发明实施例还提供了一种视频数据处理终端,视频数据处理终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本申请实施例所示的视频数据处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的视频数据处理方法。
本发明提供的视频数据处理方法,提取视频数据中的音频数据;对音频数据进行语音识别,得到语音识别结果;根据语音识别结果确定多个关键词;根据关键词确定视频数据的标签,为视频数据配置标签。相对于目前需要由人工对视频数据添加标签,本发明能够将视频数据转换为音频数据,基于音频数据得到关键词,根据关键词确定视频数据的标签,实现机器自动化的为视频数据添加标签,无需人工添加标签,解放人工劳动力,同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置,提高视频数据的标签配置效率。
附图说明
图1是本发明实施例一中的视频数据处理方法的流程示意图;
图2是本发明实施例二中的视频数据处理方法的流程示意图;
图3是本发明实施例三中的一个视频数据处理装置的结构示意图;
图4是本发明实施例三中的另一个视频数据处理装置的结构示意图;
图5是本发明实施例四中的另一个视频数据处理终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种视频数据处理方法的流程图,本实施例可适用于为视频数据配置标签的情况,该方法可以由计算机设备来执行,具体包括如下步骤:
步骤110、提取视频数据中的音频数据。
视频数据可以为用户上传的,也可以为从数据库中获取的。从视频数据中将音频数据进行分离,得到音频数据。
可选的,使用音视频处理工具FFmpeg提取视频数据中的音频数据。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。可以通过调用FFmpeg中的音频处理功能,提取视频数据中的音频数据。
步骤120、对音频数据进行语音识别,得到语音识别结果。
可以通过文字识别实现音频数据向语音识别结果的转换。语音识别结果为文本数据,用于表示语音数据内容。可以使用常规的音频转文字工具得到语音识别结果。可选的,使用自动语音识别技术(Automatic Speech Recognition,ASR)识别教学视频中人类口语。
但常规的语音识别算法无法准确识别教育视频中音频数据包含的专用词语。基于此,步骤120可通过下述方式实施:
步骤一、对音频数据进行预处理,得到多个子数据。
通常,教育视频的时长较长,若直接对音频视频进行识别,会导致长时间的识别。基于此,可以对音频数据进行预处理,以便将音频数据拆分为多个子数据。
示例性的,预处理可以通过下述方式实施:
首先,消除音频数据首部和尾部的静音内容,得到第一数据。其次,对第一数据进行降噪处理,得到第二数据。再次,根据第二数据的时长确定时间窗口。最后,根据时间窗口对第二数据进行分帧,得到多个子数据。
教学视频的首部和尾部常会存在留白,留白部分为静音内容。将音频数据中首部和尾部的静音内容进行消除后,得到第一数据。此外,教学视频中由于讲师现场授课时存在回声等噪音,因此对第一数据进行降噪处理,得到第二数据。
根据第二数据的时长和时间窗口长度呈正比。可以设置预设窗口数量,如100个。根据第二数据的时长和预设窗口数量确定时间窗口。将第二数据的时长和预设窗口数量商作为时间窗口。
使用时间窗口对第二数据进行分帧。分帧用于使用时间窗口依次从第二数据中截取子数据。
步骤二、分别将每个子数据输入至语音识别模型,得到语音识别结果,语音识别模型用于从子数据中识别出包含预设词汇的文本,文本作为语音识别结果。
语音识别模型用于从子数据中识别出语音识别结果,语音识别结果为子数据中的关键词汇。不同科目涉及的专业词汇不同,可以使用识别模板记录不同科目需要识别的词汇。可以预先对语音识别模型进行训练,以便使语音识别模型可以分析子数据所属科目,并使用该科目适配的识别模板进行识别。识别模板可以在语音识别模型的训练过程中进行不断优化。可以通过模板库存储各科目所使用的识别模板。
示例性的,分别将每个子数据输入至语音识别模型,以便语音识别模型根据子数据查找匹配的识别模板;语音识别模型根据识别模板对子数据中的预设词汇进行识别,得到语音识别结果。
语音识别模型接收到子数据后,识别子数据适配的识别模型。从模板库中读取该识别模板。识别模板中存在多个关键词汇。使用该识别模板对子数据中的预设词汇进行识别。若子数据中存在与识别模板中关键词汇匹配的内容,则提取出该关键词汇,作为语音识别结果。或者,将子数据进行文本转换,在进行文本转换时,参照识别模板识别关紧词汇等专业名词。
在得到多个子数据之后,并行的对多个子数据进行语音识别,得到语音识别结果。
在一种实现方式中,视频数据为教学视频,识别模板为教学视频所属学科对应的模板。在上述实施例中,可以将教学视频作为视频数据。可以在训练过程中国,对识别模板中的关键词汇进行总结,使得识别模板包含教学视频所属学科。
步骤130、根据语音识别结果确定多个关键词。
步骤120中每个子数据得到一个语音识别结果,每个语音识别结果中包含多个关键词汇,也包含常规词汇。如果语音识别结果由多个关键词汇组合,则可以将多个关键词汇确定为关键词。若语音识别结果为整句对应的文本,则需要对该文本进行分词,以得到多个关键词。
在上述实施例的基础上,对每个子数据的语音识别结果进行分词处理,得道多个关键词。
可以使用人工智能算法进行分词,如自然语言处理(Natural LanguageProcessing,NLP)算法等。分词处理可以将整句对应的文本划分为多个关键词。
步骤140、根据关键词确定视频数据的标签,为视频数据配置标签。
分别根据每个子数据确定关键词后,多个子数据的关键词之间可能存在重复。在上述实施例的基础上,可以将多个关键词进行去重处理;根据去重处理的关键词确定所述视频数据的标签。
从关键词中去掉重复的关键词,将剩余为重复的关键词作为视频数据的标签。为视频数据配置该标签,以便后续检索时可以根据该标签对视频数据进行检索。
本发明实施例提供的视频数据处理方法,提取视频数据中的音频数据;对音频数据进行语音识别,得到语音识别结果;根据语音识别结果确定多个关键词;根据关键词确定视频数据的标签,为视频数据配置标签。相对于目前需要由人工对视频数据添加标签,本发明能够将视频数据转换为音频数据,基于音频数据得到关键词,根据关键词确定视频数据的标签,实现机器自动化的为视频数据添加标签,无需人工添加标签,解放人工劳动力,同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置,提高视频数据的标签配置效率。
实施例二
图2为本发明实施例二提供的一种视频数据处理方法的流程图,本实施例可适用于为对视频数据进行检索的情况,该方法可以由计算机设备来执行,具体包括如下步骤:
步骤210、提取视频数据中的音频数据。
步骤220、对音频数据进行语音识别,得到语音识别结果。
步骤230、根据语音识别结果确定多个关键词。
步骤240、根据关键词确定视频数据的标签,为视频数据配置标签。
步骤250、当触发视频数据处理时,根据视频数据的标签和用户输入的检索词汇确定目标视频数据。
用户在对视频数据进行检索时,可以输入检索词汇。检索词汇往往是某个领域较为专业的专业词汇。例如某个成语、物理变量、化学元素、人工智能AI领域专业数据等。可以根据用户历史搜索记录确定用户的常规搜索领域,优先从该领域中检索与用户输入的检索词汇匹配的目标视频数据。
在检索时,使用用户输入的检索词汇与视频数据的标签进行比对。当用户输入了多个词汇时,从标签中查找与该多个词汇匹配度最大的一组标签,将该组标签对应的视频数据作为目标视频数据。其中,匹配度最大可以为相同词汇最多或则语义最接近。
本发明实施例提供的视频数据处理方法,提取视频数据中的音频数据;对音频数据进行语音识别,得到语音识别结果;根据语音识别结果确定多个关键词;根据关键词确定视频数据的标签,为视频数据配置标签。当触发视频数据处理时,根据视频数据的标签和用户输入的检索词汇确定目标视频数据。实现使用自动化配置的标签进行检索,由于自动化配置的标签是由音频数据进行语音识别后得到的,因此能够准确的表示视频数据内容。因此基于上述标签检索视频数据时,能够更加准确的查找到与用户预期查找内容相符的目标视频数据。
实施例三
图3为本发明实施例三提供的一种视频数据处理装置的结构示意图,本实施例可适用于为视频数据配置标签以及基于配置的标签进行检索的情况,该方法可以位于计算机设备来执行,具体包括:音频提取模块310、语音识别模块320、关键词确定模块330以及标签配置模块340。
音频提取模块310,用于提取视频数据中的音频数据;
语音识别模块320,用于对音频数据进行语音识别,得到语音识别结果;
关键词确定模块330,用于根据语音识别结果确定多个关键词;
标签配置模块340,用于根据关键词确定视频数据的标签,为视频数据配置标签。
在上述实施例的基础上,音频提取模块310用于:
对音频数据进行预处理,得到多个子数据;
分别将每个子数据输入至语音识别模型,得到语音识别结果,语音识别模型用于从子数据中识别出包含预设词汇的文本,文本作为语音识别结果。
在上述实施例的基础上,音频提取模块310用于:
分别将每个子数据输入至语音识别模型,以便语音识别模型根据子数据查找匹配的识别模板;
语音识别模型根据识别模板对子数据中的预设词汇进行识别,得到语音识别结果。
在上述实施例的基础上,视频数据为教学视频,识别模板为教学视频所属学科对应的模板。
在上述实施例的基础上,音频提取模块310用于:
消除音频数据首部和尾部的静音内容,得到第一数据;
对第一数据进行降噪处理,得到第二数据;
根据第二数据的时长确定时间窗口;
根据时间窗口对第二数据进行分帧,得到多个子数据。
在上述实施例的基础上,关键词确定模块330用于:
对每个子数据的语音识别结果进行分词处理,得道多个关键词;
相应的,根据关键词确定视频数据的标签,包括:
将多个关键词进行去重处理;
根据去重处理的关键词确定所述视频数据的标签。
在上述实施例的基础上,音频提取模块310用于:
使用音视频处理工具FFmpeg提取视频数据中的音频数据。
如图4所示,在上述实施例的基础上,还包括搜索模块350。搜索模块350用于当触发视频数据处理时,根据视频数据的标签和用户输入的检索词汇确定目标视频数据。
本发明实施例提供的视频数据处理装置,音频提取模块310提取视频数据中的音频数据;语音识别模块320对音频数据进行语音识别,得到语音识别结果;关键词确定模块330根据语音识别结果确定多个关键词;标签配置模块340根据关键词确定视频数据的标签,为视频数据配置标签。相对于目前需要由人工对视频数据添加标签,本发明能够将视频数据转换为音频数据,基于音频数据得到关键词,根据关键词确定视频数据的标签,实现机器自动化的为视频数据添加标签,无需人工添加标签,解放人工劳动力,同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置,提高视频数据的标签配置效率。
本发明实施例所提供的视频数据处理装置可执行本发明任意实施例所提供的视频数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种视频数据处理终端的结构示意图,如图5所示,该视频数据处理终端包括处理器50、存储器51、输入装置52和输出装置53;视频数据处理终端中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;视频数据处理终端中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的视频数据处理方法对应的程序指令/模块(例如,视频数据处理装置中的音频提取模块310、语音识别模块320、关键词确定模块330、标签配置模块340以及搜索模块350)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行视频数据处理终端的各种功能应用以及数据处理,即实现上述的视频数据处理方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至视频数据处理终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与视频数据处理终端的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种视频数据处理方法,该方法包括:
提取视频数据中的音频数据;
对音频数据进行语音识别,得到语音识别结果;
根据语音识别结果确定多个关键词;
根据关键词确定视频数据的标签,为视频数据配置标签。
在上述实施例的基础上,对音频数据进行语音识别,得到语音识别结果,包括:
对音频数据进行预处理,得到多个子数据;
分别将每个子数据输入至语音识别模型,得到语音识别结果,语音识别模型用于从子数据中识别出包含预设词汇的文本,文本作为语音识别结果。
在上述实施例的基础上,分别将每个子数据输入至语音识别模型,得到语音识别结果,包括:
分别将每个子数据输入至语音识别模型,以便语音识别模型根据子数据查找匹配的识别模板;
语音识别模型根据识别模板对子数据中的预设词汇进行识别,得到语音识别结果。
在上述实施例的基础上,视频数据为教学视频,识别模板为教学视频所属学科对应的模板。
在上述实施例的基础上,对音频数据进行预处理,得到多个子数据,包括:
消除音频数据首部和尾部的静音内容,得到第一数据;
对第一数据进行降噪处理,得到第二数据;
根据第二数据的时长确定时间窗口;
根据时间窗口对第二数据进行分帧,得到多个子数据。
在上述实施例的基础上,根据语音识别结果确定多个关键词,包括:
对每个子数据的语音识别结果进行分词处理,得道多个关键词;
相应的,根据关键词确定视频数据的标签,包括:
将多个关键词进行去重处理;
根据去重处理的关键词确定所述视频数据的标签。
在上述实施例的基础上,提取视频数据中的音频数据,包括:
使用音视频处理工具FFmpeg提取视频数据中的音频数据。
在上述实施例的基础上,在为视频数据配置标签之后,还包括:
当触发视频数据处理时,根据视频数据的标签和用户输入的检索词汇确定目标视频数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的视频数据处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (18)
1.一种视频数据处理方法,其特征在于,包括:
提取视频数据中的音频数据;
对所述音频数据进行语音识别,得到语音识别结果;
根据所述语音识别结果确定多个关键词;
根据所述关键词确定所述视频数据的标签,为所述视频数据配置所述标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行语音识别,得到语音识别结果,包括:
对所述音频数据进行预处理,得到多个子数据;
分别将每个子数据输入至语音识别模型,得到语音识别结果,所述语音识别模型用于从所述子数据中识别出包含预设词汇的文本,所述文本作为语音识别结果。
3.根据权利要求2所述的方法,其特征在于,所述分别将每个子数据输入至语音识别模型,得到语音识别结果,包括:
分别将每个子数据输入至语音识别模型,以便所述语音识别模型根据所述子数据查找匹配的识别模板;
所述语音识别模型根据所述识别模板对所述子数据中的预设词汇进行识别,得到语音识别结果。
4.根据权利要求3所述的方法,其特征在于,所述视频数据为教学视频,所述识别模板为所述教学视频所属学科对应的模板。
5.根据权利要求2所述的方法,其特征在于,所述对所述音频数据进行预处理,得到多个子数据,包括:
消除所述音频数据首部和尾部的静音内容,得到第一数据;
对所述第一数据进行降噪处理,得到第二数据;
根据所述第二数据的时长确定时间窗口;
根据所述时间窗口对所述第二数据进行分帧,得到多个子数据。
6.根据权利要求2所述的方法,其特征在于,所述根据所述语音识别结果确定多个关键词,包括:
对每个子数据的语音识别结果进行分词处理,得道多个关键词;
相应的,所述根据所述关键词确定所述视频数据的标签,包括:
将所述多个关键词进行去重处理;
根据去重处理的关键词确定所述视频数据的标签。
7.根据权利要求1所述的方法,其特征在于,所述提取视频数据中的音频数据,包括:
使用音视频处理工具FFmpeg提取视频数据中的音频数据。
8.根据权利要求1所述的方法,其特征在于,在为所述视频数据配置所述标签之后,还包括:
当触发视频数据处理时,根据所述视频数据的标签和用户输入的检索词汇确定目标视频数据。
9.一种视频数据处理装置,其特征在于,包括:
音频提取模块,用于提取视频数据中的音频数据;
语音识别模块,用于对所述音频数据进行语音识别,得到语音识别结果;
关键词确定模块,用于根据所述语音识别结果确定多个关键词;
标签配置模块,用于根据所述关键词确定所述视频数据的标签,为所述视频数据配置所述标签。
10.根据权利要求9所述的装置,其特征在于,所述音频提取模块用于:
对所述音频数据进行预处理,得到多个子数据;
分别将每个子数据输入至语音识别模型,得到语音识别结果,所述语音识别模型用于从所述子数据中识别出包含预设词汇的文本,所述文本作为语音识别结果。
11.根据权利要求10所述的装置,其特征在于,所述音频提取模块用于:
分别将每个子数据输入至语音识别模型,以便所述语音识别模型根据所述子数据查找匹配的识别模板;
所述语音识别模型根据所述识别模板对所述子数据中的预设词汇进行识别,得到语音识别结果。
12.根据权利要求11所述的装置,其特征在于,所述视频数据为教学视频,所述识别模板为所述教学视频所属学科对应的模板。
13.根据权利要求10所述的装置,其特征在于,所述音频提取模块用于:
消除所述音频数据首部和尾部的静音内容,得到第一数据;
对所述第一数据进行降噪处理,得到第二数据;
根据所述第二数据的时长确定时间窗口;
根据所述时间窗口对所述第二数据进行分帧,得到多个子数据。
14.根据权利要求10所述的装置,其特征在于,所述关键词确定模块用于:
对每个子数据的语音识别结果进行分词处理,得道多个关键词;
相应的,所述根据所述关键词确定所述视频数据的标签,包括:
将所述多个关键词进行去重处理;
根据去重处理的关键词确定所述视频数据的标签。
15.根据权利要求9所述的装置,其特征在于,所述音频提取模块用于:
使用音视频处理工具FFmpeg提取视频数据中的音频数据。
16.根据权利要求9所述的装置,其特征在于,还包括搜索模块,用于当触发视频数据处理时,根据所述视频数据的标签和用户输入的检索词汇确定目标视频数据。
17.一种视频数据处理终端,其特征在于,所述视频数据处理终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的视频数据处理方法。
18.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的视频数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360473.4A CN112543371A (zh) | 2020-11-27 | 2020-11-27 | 视频数据处理方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360473.4A CN112543371A (zh) | 2020-11-27 | 2020-11-27 | 视频数据处理方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112543371A true CN112543371A (zh) | 2021-03-23 |
Family
ID=75015294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011360473.4A Pending CN112543371A (zh) | 2020-11-27 | 2020-11-27 | 视频数据处理方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112543371A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343827A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
CN113365100A (zh) * | 2021-06-02 | 2021-09-07 | 中国邮政储蓄银行股份有限公司 | 视频处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
US20180286421A1 (en) * | 2017-03-31 | 2018-10-04 | Hong Fu Jin Precision Industry (Shenzhen) Co. Ltd. | Sharing method and device for video and audio data presented in interacting fashion |
CN110517689A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
CN111510765A (zh) * | 2020-04-30 | 2020-08-07 | 浙江蓝鸽科技有限公司 | 基于教学视频的音频标签智能标注方法及装置 |
-
2020
- 2020-11-27 CN CN202011360473.4A patent/CN112543371A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
US20180286421A1 (en) * | 2017-03-31 | 2018-10-04 | Hong Fu Jin Precision Industry (Shenzhen) Co. Ltd. | Sharing method and device for video and audio data presented in interacting fashion |
CN110517689A (zh) * | 2019-08-28 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置及存储介质 |
CN111510765A (zh) * | 2020-04-30 | 2020-08-07 | 浙江蓝鸽科技有限公司 | 基于教学视频的音频标签智能标注方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343827A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
CN113365100A (zh) * | 2021-06-02 | 2021-09-07 | 中国邮政储蓄银行股份有限公司 | 视频处理方法及装置 |
CN113365100B (zh) * | 2021-06-02 | 2022-11-22 | 中国邮政储蓄银行股份有限公司 | 视频处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
US20180039859A1 (en) | Joint acoustic and visual processing | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN109033060B (zh) | 一种信息对齐方法、装置、设备及可读存储介质 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
CN104143329A (zh) | 进行语音关键词检索的方法及装置 | |
CN112001175A (zh) | 流程自动化方法、装置、电子设备及存储介质 | |
CN110674378A (zh) | 基于余弦相似度和最小编辑距离的中文语义识别方法 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN112543371A (zh) | 视频数据处理方法、装置、终端及存储介质 | |
CN112749549B (zh) | 一种基于增量学习和多模型融合的中文实体关系抽取方法 | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
CN112562682A (zh) | 基于多人通话的身份识别方法、系统、设备及存储介质 | |
CN111144102A (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111968624B (zh) | 数据构建方法、装置、电子设备及存储介质 | |
CN112199954B (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN113611286A (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210323 |