CN110913242A - 一种广播音频标签自动化生成方法 - Google Patents

一种广播音频标签自动化生成方法 Download PDF

Info

Publication number
CN110913242A
CN110913242A CN201811088877.5A CN201811088877A CN110913242A CN 110913242 A CN110913242 A CN 110913242A CN 201811088877 A CN201811088877 A CN 201811088877A CN 110913242 A CN110913242 A CN 110913242A
Authority
CN
China
Prior art keywords
audio
label
primary
tag
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811088877.5A
Other languages
English (en)
Other versions
CN110913242B (zh
Inventor
胡蓓蓓
范晓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Archimedes (shanghai) Media Co Ltd
Original Assignee
Archimedes (shanghai) Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Archimedes (shanghai) Media Co Ltd filed Critical Archimedes (shanghai) Media Co Ltd
Priority to CN201811088877.5A priority Critical patent/CN110913242B/zh
Publication of CN110913242A publication Critical patent/CN110913242A/zh
Application granted granted Critical
Publication of CN110913242B publication Critical patent/CN110913242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种广播音频自动化标签生成方法。该方法运用计算机结合多种音频算法自动地识别出广播节目不同时间片段的内容类别并生成相应的音频标签。相对于传统由人工编辑的适用于整期音频标签,本方法所生成的音频标签时间颗粒度细、维度更丰富,能为不同互联网场景下的音频服务提供支持。并且由于本发明提供的标签生成方法采用了计算机技术自动识别并产生相应的音频标签,标签的生成效率高,能很好地满足海量广播音频数据对音频标签细致化的需求。

Description

一种广播音频标签自动化生成方法
技术领域
本发明公开了一种广播音频自动化标签生成方法,涉及广播音频内容识别领域。广播节目音频通常包含了多种不同类型的音频内容,比如音乐、人声、广告、节目片头片花等。音频标签是一系列音频内容的描述信息,通过多种标签类目设计,可从多个不同维度描述一段音频;而基于丰富的音频标签,可实现广播音频节目在多种互联网场景下的应用。
背景技术
在互联网广播领域,用户通过互联网可收听正在直播的广播节目以及往期的广播节目。现有的互联网广播节目标签,通常是由节目基础信息和附加分类标签组成的。节目基础信息包括节目名称、所属频率、节目播出时间、主持人等。附加分类标签是指一系列标签,对节目内容、收听场景、适合人群等维度的描述信息。附加分类标签,通常是节目级别的描述信息,在系统增加节目时,人工赋予节目一系列标签。在互联网广播领域,听众对碎片化、个性化的音频片段有着巨大的需求,但由于现有的广播节目标签只具有节目级的基本描述信息,这些基本信息无法满足大数据场景下,听众更精准的收听需求。此外,全国各地广播电台不间断生产并播出广播节目,广播节目音频数量巨大,单纯依靠人工赋予节目标签需要耗费大量的人力、物力成本,效率低下无法适应海量的音频标签处理场景。
综上,可知现有的广播节目音频标签产生方法具有以下缺点:
1.产生的音频标签的时间颗粒度不够细化,现有标签针对整档节目设定,而同一节目每期的内容不同,同一期节目中不同的时间片段内容也有不同,因此需要用更细时间颗粒的音频标签来描述节目内容特征来满足听众精准的收听需求。
2.人工打标效率低,无法满足听众对海量广播音频数据细致化标签的需求。
发明内容
为了克服现有广播节目音频标签产生方法的上述缺点,本发明提供一种广播音频标签自动化生成方法,该方法包括以下步骤:
a.运用计算机执行一级音频标签识别算法对一期广播节目音频进行初识别,以产生多种一级音频标签以及对应的音频片段;
b.针对不同的一级音频标签对应的音频片段,执行与该一级音频标签对应的预设的二级音频标签识别算法以产生二级音频标签及对应的音频片段;
c.将所有所述产生的一级音频标签及其对应的音频片段,二级标签及其对应的音频片段进行存储。
其中,一级音频标签识别算法可以实现为根据预设的音频广告库、片头片花声纹库,通过音乐声纹检索识别出当前节目中的广告音频片段、片头片花音频片段,并分别将音频标签“广告”、“片头片花”赋予相应的音频片段。对于“广告”音频片段,对应的二级音频标签识别算法进一步识别出该段广告的广告ID以及关键词,并依据识别的结果产生相应的二级音频标签。对于“片头片花”音频片段对应的预设的二级音频标签识别算法用于根据所述预设的片头片花音乐声纹库识别出该段片头片花的ID、对应节目和节目所属的频率作为其二级音频标签。
进一步地,所述一级音频标签识别算法可以集成现有的音乐识别算法和语音识别算法识别出当前节目中的音乐片段以人声片段后,分别赋予音频标签“音乐”、“人声”。对于“音乐”音频片段,对应的二级音频标签识别算法进一步识别出该段音乐的歌曲流派、歌手、歌曲名称、乐器、节奏等音乐信息,并依据识别的结果产生相应的二级音频标签。对于“人声”音频片段对应的预设的二级音频标签识别算法用于根据现有的语音识别算法得出与该段语音对应的文本信息以及说话人情绪,进而提取关键词以及文本摘要;同时根据预设的说话人声音特征库识别出具体的说话人信息包括:说话人ID、性别、年龄;并将所述关键词、文本摘要以及说话人信息作为二级标签赋予该音频片段。
附图说明
图1为本发明提供音频标签生成方法流程图;
图2为本发明的音频标签结构示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案以及有益效果更加清楚明白,以下结合附图对本发明进行进一步详细说明。应该理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种广播音频标签自动化生成方法,该方法包括以下步骤:
a.运用计算机执行一级音频标签识别算法对一期广播节目音频进行初识别,以产生多种一级音频标签以及对应的音频片段;
b.针对不同的一级音频标签对应的音频片段,执行与该一级音频标签对应的预设的二级音频标签识别算法以产生二级音频标签及对应的音频片段;
c.将所有所述产生的一级音频标签及其对应的音频片段,二级标签及其对应的音频片段进行存储。
如图2所示,在本发明的一个实施例中所述多种一级音频标签包括:音乐、人声、广告、片头片花。所述一级音频标签识别算法具体根据预设的音频广告库、片头片花声纹库,通过音乐声纹检索识别出当前节目中的广告音频片段、片头片花音频片段,并分别将音频标签“广告”、“片头片花”赋予相应的音频片段。同时、所述一级音频标签识别算法还集成现有的音乐识别算法和语音识别算法,用于识别当前节目中的音乐片段以人声片段后,分别赋予音频标签“音乐”、“人声”。
如图2所示,在该实施例中,步骤b具体实现的细节如下:
对于一级标签为“音乐”的音频片段,对应的二级音频标签识别算法进一步识别出该段音乐的歌曲流派、歌手、歌曲名称、乐器、节奏等音乐信息作为其对应的二级音频标签。
对于一级标签为“广告”的音频片段,对应的二级音频标签识别算法进一步识别出该段广告的广告ID以及关键词作为其对应二级音频标签。
对于一级标签为“片头片花”的音频片段对应的预设的二级音频标签识别算法用于根据所述预设的片头片花声纹库识别出该段片头片花的ID,对应的节目以及该节目所属的频道频率作为其二级音频标签。
对于一级标签为“人声”的音频片段,对应的预设的二级音频标签识别算法用于根据现有的语音识别算法得出与该段语音对应的文本信息以及说话人情绪,进而提取关键词以及文本摘要;同时根据预设的说话人声音特征库识别出具体的说话人信息包括:说话人ID、性别、年龄;并将所述关键词、文本摘要以及说话人信息作为二级标签赋予该音频片段。
本发明提供的广播音频标签自动化生成方法产生的音频标签,可以应用在如下互联网广播业务场景中:
1.广播节目音频内容检索:基于上述音频标签结构,可在海量广播音频中检索出某一标签或某一关键字所对应的节目以及在节目中播放的时间位置。
2.节目音频推荐:可基于多维度的标签,向广播节目听众推荐广播节目或广播短音频。
3.短音频切分和提取:可基于音频标签及其对应时段,将时长较长的音频中剪辑出内容短小精悍的广播短音频。
4.音频数据报表生成:多维音频标签可用于生成广播节目广告监播数据报表、歌曲播放排行榜、广播热词排行等数据报表。
5.频率改版监控:监控片头片花的日分布数据,当统计数据发生剧烈变化时,系统报警。运维人员需要检查所属频率节目单是否发生了改变。
6.节目智能播放:可实现去广告播放、去片头片花播放,提升用户收听体验。
与现有技术相比,本发明具有以下优点:
1.自动化生成音频标签、标签的生成效率高,适应互联网广播海量数据场景:本发明提出的自动化音频标签生成方法,可部署在大规模服务器集群上,实现广播节目音频的并行处理,因此具有较高的标签生成效率。
2.标签维度丰富,时间颗粒度更细:本发明提出的自动化音频标签生成方法,综合多种音频处理算法,输出多种维度的音频标签;并且对一期广播节目音频在更短的时间片段上输出音频标签,具有更细的时间颗粒度。

Claims (5)

1.一种广播音频标签自动化生成方法,该方法包括以下步骤:
a.运用计算机执行一级音频标签识别算法对一期广播节目音频进行初识别,以产生多种一级音频标签以及对应的音频片段;
b.针对不同的一级音频标签对应的音频片段,执行与该一级音频标签对应的预设的二级音频标签识别算法以产生二级音频标签及对应的音频片段;
c.将所有所述产生的一级音频标签及其对应的音频片段,二级标签及其对应的音频片段进行存储。
2.如权利要求1所述的方法,其中步骤a所述一级音频标签识别算法用于识别广播节目音频中的音乐片段、广告片段、片头片花片段以及语音片段,并产生相应的一级音频标签包括音乐、广告、片头片花以及人声。
3.如权利要求1或2所述方法,其中片头片花识别具体实现为:利用预先建立的片头片花声纹库,通过音乐声纹检索识别出当前节目中的片头片花及对应信息。
4.如权利要求2所述的方法,其中与一级音频标签音乐对应的预设的二级音频标签识别算法用于识别出音乐的具体信息包括歌曲流派、歌手、歌曲名称、乐器、节奏,并依据识别的结果产生相应的二级音频标签;与一级音频标签人声对应的预设的二级音频标签识别算法用于识别出该段人声的说话人、情绪、性别、年龄段、关键词、摘要,并并依据识别的结果产生相应的二级音频标签;与一级音频标签广告对应的预设的二级音频标签识别算法用于识别出该段广告的广告ID以及关键词,并依据识别的结果产生相应的二级音频标签;与一级音频标签片头片花对应的预设的二级音频标签识别算法用于识别出该段片头片花的ID、对应节目信息和该节目所属的频道频率,依据识别的结果产生相应的二级音频标签。
5.如权利要求4所述的方法,其中、与一级音频标签广告对应的预设的二级音频标签识别算法用于识别出该段广告的广告ID以及关键词,具体实现为:对语音识别输出的文字信息进行关键词提取以及摘要提取,并将提取到的关键词以及摘要作为对应音频片段的二级标签。
CN201811088877.5A 2018-09-18 2018-09-18 一种广播音频标签自动化生成方法 Active CN110913242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811088877.5A CN110913242B (zh) 2018-09-18 2018-09-18 一种广播音频标签自动化生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811088877.5A CN110913242B (zh) 2018-09-18 2018-09-18 一种广播音频标签自动化生成方法

Publications (2)

Publication Number Publication Date
CN110913242A true CN110913242A (zh) 2020-03-24
CN110913242B CN110913242B (zh) 2021-12-10

Family

ID=69812829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811088877.5A Active CN110913242B (zh) 2018-09-18 2018-09-18 一种广播音频标签自动化生成方法

Country Status (1)

Country Link
CN (1) CN110913242B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782878A (zh) * 2020-07-06 2020-10-16 聚好看科技股份有限公司 服务器、显示设备及其视频搜索排序方法
CN114582366A (zh) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 一种基于LapSVM实现音频分段打标签的方法
CN114896447A (zh) * 2022-04-29 2022-08-12 思必驰科技股份有限公司 音频摘要生成方法、系统和电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622353A (zh) * 2011-01-27 2012-08-01 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
CN102999621A (zh) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 一种外观主题的设置方法及装置
WO2014131327A1 (en) * 2013-02-27 2014-09-04 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for presenting mobile media information
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
EP3229234A1 (en) * 2016-04-04 2017-10-11 Honeywell International Inc. System and method to distinguish sources in a multiple audio source environment
US20170300291A1 (en) * 2014-10-15 2017-10-19 Lg Electronics Inc. Apparatus for recording audio information and method for controlling same
US9940552B1 (en) * 2013-07-15 2018-04-10 Google Llc Sublinear time classification via feature padding and hashing
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622353A (zh) * 2011-01-27 2012-08-01 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
CN102999621A (zh) * 2012-11-29 2013-03-27 广东欧珀移动通信有限公司 一种外观主题的设置方法及装置
WO2014131327A1 (en) * 2013-02-27 2014-09-04 Tencent Technology (Shenzhen) Company Limited Method, apparatus and system for presenting mobile media information
US9940552B1 (en) * 2013-07-15 2018-04-10 Google Llc Sublinear time classification via feature padding and hashing
US20170300291A1 (en) * 2014-10-15 2017-10-19 Lg Electronics Inc. Apparatus for recording audio information and method for controlling same
EP3229234A1 (en) * 2016-04-04 2017-10-11 Honeywell International Inc. System and method to distinguish sources in a multiple audio source environment
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张燕: "多媒体素材的无障碍设计研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782878A (zh) * 2020-07-06 2020-10-16 聚好看科技股份有限公司 服务器、显示设备及其视频搜索排序方法
CN111782878B (zh) * 2020-07-06 2023-09-19 聚好看科技股份有限公司 服务器、显示设备及其视频搜索排序方法
CN114582366A (zh) * 2022-03-02 2022-06-03 浪潮云信息技术股份公司 一种基于LapSVM实现音频分段打标签的方法
CN114896447A (zh) * 2022-04-29 2022-08-12 思必驰科技股份有限公司 音频摘要生成方法、系统和电子设备及存储介质
CN114896447B (zh) * 2022-04-29 2024-08-27 思必驰科技股份有限公司 音频摘要生成方法、系统和电子设备及存储介质

Also Published As

Publication number Publication date
CN110913242B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN102799605B (zh) 一种广告监播方法和系统
US8255948B1 (en) Demographic classifiers from media content
CN110430476B (zh) 直播间搜索方法、系统、计算机设备和存储介质
CN110913242B (zh) 一种广播音频标签自动化生成方法
US8566880B2 (en) Device and method for providing a television sequence using database and user inputs
Kotsakis et al. Investigation of broadcast-audio semantic analysis scenarios employing radio-programme-adaptive pattern classification
CN108780653A (zh) 音频内容制作、音频排序和音频混合的系统和方法
US20140278845A1 (en) Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
KR20070121810A (ko) 복합 뉴스 스토리 합성
BR112016006860B1 (pt) Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US20100146009A1 (en) Method of DJ commentary analysis for indexing and search
CN109241332B (zh) 一种通过语音确定语义的方法及系统
WO2014096832A1 (en) Audio analysis system and method using audio segment characterisation
CN102411578A (zh) 一种多媒体播放系统和方法
CN111432140B (zh) 一种利用人工神经网络进行电视新闻拆条的方法
CN112468754B (zh) 一种基于音视频识别技术的笔录数据采集方法及装置
CN116737936B (zh) 一种基于人工智能的ai虚拟人物语言库分类管理系统
CN103942328A (zh) 一种视频检索方法及视频装置
Raimond et al. Automated interlinking of speech radio archives.
Wang et al. Broadcast news story segmentation using conditional random fields and multimodal features
Doulaty et al. Automatic genre and show identification of broadcast media
CN114547373A (zh) 一种基于音频智能识别搜索节目的方法
US9569532B1 (en) Melody recognition systems
Raimond et al. Using the past to explain the present: interlinking current affairs with archives via the semantic web
Raimond et al. Automated semantic tagging of speech audio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant