CN113129924A - 一种基于计算机视觉的音视频内容自动标签提取方法 - Google Patents

一种基于计算机视觉的音视频内容自动标签提取方法 Download PDF

Info

Publication number
CN113129924A
CN113129924A CN202110343367.3A CN202110343367A CN113129924A CN 113129924 A CN113129924 A CN 113129924A CN 202110343367 A CN202110343367 A CN 202110343367A CN 113129924 A CN113129924 A CN 113129924A
Authority
CN
China
Prior art keywords
audio
video
information
tags
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110343367.3A
Other languages
English (en)
Inventor
赵郑
段小霞
时梅
于言言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zeqiao Media Technology Co ltd
Original Assignee
Beijing Zeqiao Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zeqiao Media Technology Co ltd filed Critical Beijing Zeqiao Media Technology Co ltd
Priority to CN202110343367.3A priority Critical patent/CN113129924A/zh
Publication of CN113129924A publication Critical patent/CN113129924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:S1:音视频播放:对音视频进行播放,设置播放倍数;S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;S3:视频内容标注:对视频内容信息进行标注;S4:关键提取:对音频信息中的关键内容进行提取,设定标签;S5:标签选择:对设定的标签进行选择,选择一个设定的标签;S6:标签点缀:对设定的标签进行点缀处理,设定好文库,对文库中各个单元信息设置不同点缀。本发明音视频内容自动标签提取准确性较高,提取的结果误差较小,并且观赏性较好,能够对含有不健康内容的视频进行剔除。

Description

一种基于计算机视觉的音视频内容自动标签提取方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于计算机视觉的音视频内容自动标签提取方法。
背景技术
随着互联网和教育云的蓬勃发展,教育教学类资源玲琅满目、参差不齐。对于教师、学生而言,可以通过少量的元数据,如标题等来判断资源是否是自身所需,这种方式较依赖于元数据,标题中的错别字可能都会影响用户的判断;也可能需要完整浏览整个音视频才能确定此资源的内容是否为所需的资源,而完整浏览整个音视频会比较耗时。可见,传统的这种音视频获取方式已经无法满足当前从海量互联网资源中快速获取满足自身要求资源的需求。
目前对音视频内容自动标签提取准确性较差,提取的结果误差较大,并且观赏性较差,不能够对含有不健康内容的视频进行剔除。
发明内容
基于背景技术存在的音视频内容自动标签提取准确性较差,提取的结果误差较大,并且观赏性较差,不能够对含有不健康内容的视频进行剔除的技术问题,本发明提出了一种基于计算机视觉的音视频内容自动标签提取方法。
本发明提出的一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
优选地,所述S1中,播放倍数设置为0.25-1。
优选地,所述S2中,提取的次数为2-6次,并删去低于平均值的提取结果。
优选地,所述S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注。
优选地,所述S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核。
优选地,所述S4中,设定标签数量为2-5个。
优选地,所述S5中,人工对设定的标签进行选择。
优选地,所述S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
本发明的有益效果:首先对音视频进行播放,设置播放倍数,然后对音频信息进行识别提取,提取完成后对提取的内容进行存储,能够进行多次提取,提高提取音频准确性,然后对视频内容进行审核标注,确保视频内容满足播放条件,能够对含有不健康内容的视频进行剔除,将存储的内容进行多个关键提取,通过人员进行选择合适的关键标签,最后对选择的关键标签进行点缀,提高观赏性。
本发明音视频内容自动标签提取准确性较高,提取的结果误差较小,并且观赏性较好,能够对含有不健康内容的视频进行剔除。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例一
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.25,S2中,提取的次数为2次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为2个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例二
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.5,S2中,提取的次数为3次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为3个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例三
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.5,S2中,提取的次数为4次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为4个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例四
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为0.75,S2中,提取的次数为5次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为4个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
实施例五
本实施例中提出了一种基于计算机视觉的音视频内容自动标签提取方法,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
本实施例中,S1中,播放倍数设置为1,S2中,提取的次数为6次,并删去低于平均值的提取结果,S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注,S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核,S4中,设定标签数量为5个,S5中,人工对设定的标签进行选择,S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
对提取标签准确性的研究:
选取五个音视频,然后采用实施例一和实施例五对五个音视频进行标签提取:
Figure DEST_PATH_IMAGE002
结果表明,采用本发明对标签提取的准确性较高,误差较小,并且实施例三为最佳实施例。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,包括以下步骤:
S1:音视频播放:对音视频进行播放,设置播放倍数;
S2:音频内容存储:对播放内容的音频信息进行识别,识别完成后进行提取,将提取的信息进行存储;
S3:视频内容标注:对视频内容信息进行标注;
S4:关键提取:对音频信息中的关键内容进行提取,设定标签;
S5:标签选择:对设定的标签进行选择,选择一个设定的标签;
S6:标签点缀:对设定的标签进行点缀处理。
2.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S1中,播放倍数设置为0.25-1。
3.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S2中,提取的次数为2-6次,并删去低于平均值的提取结果。
4.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S3中,提前输入违禁视频信息,将需要提取的视频与违禁视频信息进行对比,实现对视频信息进行标注。
5.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S3中,在标注不合格时需要提交的后台,让后台工作人员进行进一步审核。
6.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S4中,设定标签数量为2-5个。
7.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S5中,人工对设定的标签进行选择。
8.根据权利要求1所述的一种基于计算机视觉的音视频内容自动标签提取方法,其特征在于,所述S6中,设定好文库,对文库中各个单元信息设置不同点缀,设定的标签输入到文库中,标签与文库中的信息进行匹配,根据匹配结果完成点缀。
CN202110343367.3A 2021-03-30 2021-03-30 一种基于计算机视觉的音视频内容自动标签提取方法 Pending CN113129924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110343367.3A CN113129924A (zh) 2021-03-30 2021-03-30 一种基于计算机视觉的音视频内容自动标签提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110343367.3A CN113129924A (zh) 2021-03-30 2021-03-30 一种基于计算机视觉的音视频内容自动标签提取方法

Publications (1)

Publication Number Publication Date
CN113129924A true CN113129924A (zh) 2021-07-16

Family

ID=76775025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110343367.3A Pending CN113129924A (zh) 2021-03-30 2021-03-30 一种基于计算机视觉的音视频内容自动标签提取方法

Country Status (1)

Country Link
CN (1) CN113129924A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414948A (zh) * 2013-08-01 2013-11-27 王强 一种视频的播放方法和装置
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
CN107529068A (zh) * 2016-06-21 2017-12-29 北京新岸线网络技术有限公司 视频内容鉴别方法及系统
CN108447501A (zh) * 2018-03-27 2018-08-24 中南大学 一种云存储环境下基于音频字的盗版视频检测方法与系统
CN110149530A (zh) * 2018-06-15 2019-08-20 腾讯科技(深圳)有限公司 一种视频处理方法和装置
WO2020231385A1 (en) * 2019-05-10 2020-11-19 Hewlett-Packard Development Company L.P. Tagging audio/visual content with reaction context

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414948A (zh) * 2013-08-01 2013-11-27 王强 一种视频的播放方法和装置
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统
CN107529068A (zh) * 2016-06-21 2017-12-29 北京新岸线网络技术有限公司 视频内容鉴别方法及系统
CN108447501A (zh) * 2018-03-27 2018-08-24 中南大学 一种云存储环境下基于音频字的盗版视频检测方法与系统
CN110149530A (zh) * 2018-06-15 2019-08-20 腾讯科技(深圳)有限公司 一种视频处理方法和装置
WO2020231385A1 (en) * 2019-05-10 2020-11-19 Hewlett-Packard Development Company L.P. Tagging audio/visual content with reaction context

Similar Documents

Publication Publication Date Title
WO2021082668A1 (zh) 一种弹幕编辑方法、智能终端及存储介质
CN111683209B (zh) 混剪视频的生成方法、装置、电子设备及计算机可读存储介质
US20200125981A1 (en) Systems and methods for recognizing ambiguity in metadata
US11270123B2 (en) System and method for generating localized contextual video annotation
US8386942B2 (en) System and method for providing digital multimedia presentations
CN106937172A (zh) 基于人工智能的视频播放时的互动方法及装置
CN110505498A (zh) 视频的处理、播放方法、装置及计算机可读介质
WO2019129075A1 (zh) 视频检索的方法和装置以及计算机可读存储介质
CN103458321A (zh) 一种字幕加载方法及装置
CN109165316A (zh) 一种视频处理方法、视频索引方法、装置及终端设备
CN105807917A (zh) 一种辅助用户识字的方法及装置
CN109688484A (zh) 一种教学视频学习方法及系统
CN106802913A (zh) 一种播放内容推荐方法及其装置
CN107180055A (zh) 业务对象的展示方法及装置
CN107239503A (zh) 视频展示方法及装置
US11010398B2 (en) Metadata extraction and management
Imran et al. Multimedia learning objects framework for e-learning
CN113129924A (zh) 一种基于计算机视觉的音视频内容自动标签提取方法
CN103503469B (zh) 分阶段元素的分类系统
US8214854B2 (en) Method and system for facilitating analysis of audience ratings data for content
BE1023431B1 (nl) Automatische identificatie en verwerking van audiovisuele media
CN115086760A (zh) 直播视频剪辑方法、装置及设备
Liu et al. MND: A New Dataset and Benchmark of Movie Scenes Classified by Their Narrative Function
CN114139053A (zh) 基于学分银行和大数据分析的终身学习资源智能推送系统
Lesage Mediatized skill: how capabilities with application software are collectively performed, perceived, and organized as part of contemporary media practices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Beijing Zeqiao Medical Technology Co.,Ltd.

Address before: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant before: Beijing Zeqiao Media Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210716