CN111489764B - 音频特征的匹配和音频节目开始时间的定位的方法及装置 - Google Patents

音频特征的匹配和音频节目开始时间的定位的方法及装置 Download PDF

Info

Publication number
CN111489764B
CN111489764B CN202010236267.6A CN202010236267A CN111489764B CN 111489764 B CN111489764 B CN 111489764B CN 202010236267 A CN202010236267 A CN 202010236267A CN 111489764 B CN111489764 B CN 111489764B
Authority
CN
China
Prior art keywords
audio
feature
information
program
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010236267.6A
Other languages
English (en)
Other versions
CN111489764A (zh
Inventor
潘峰
杨硕
杨会林
雷鹏
孟瑜
闫卓
郭欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xunshan Network Technology Co ltd
Original Assignee
Beijing Xunshan Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xunshan Network Technology Co ltd filed Critical Beijing Xunshan Network Technology Co ltd
Priority to CN202010236267.6A priority Critical patent/CN111489764B/zh
Publication of CN111489764A publication Critical patent/CN111489764A/zh
Application granted granted Critical
Publication of CN111489764B publication Critical patent/CN111489764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本申请公开了一种音频特征的匹配和音频节目开始时间的定位的方法及装置。其中,音频特征的匹配方法,方法用于确定音频节目的节目开始时间,包括:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征集合以及第二音频信息的第二特征集合;以及对第一特征集合和第二特征集合进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。

Description

音频特征的匹配和音频节目开始时间的定位的方法及装置
技术领域
本申请涉及广播节目录制技术领域,特别是涉及一种音频特征的匹配和音频节目开始时间的定位的方法及装置。
背景技术
随着互联网的发展,目前电台广播听众的收听习惯与之前有了巨大的变化,因此导致传统的电台广播面临着巨大的挑战。众所周知,广播具有无法重播和无法定位等缺点,因此当用户或者从业人员想要重新播放想听的内容时,需要额外的专业录音设备同步录制,否则无法对广播播放的内容进行回听。并且录播的内容无法进行定位,所以需要人工获取重复回听的节目内容。目前大部分的广播电台设置有录制设备,但是录制的音频信息仍然无法准确定位广播节目的开始时间和结束时间,导致无法准确的剪切出所需的广播节目。从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的问题。
针对上述的现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种音频特征的匹配和音频节目开始时间的定位的方法及装置,以至少解决现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
根据本公开实施例的一个方面,提供了一种音频特征的匹配方法,该方法用于确定音频节目的节目开始时间包括:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
根据本公开实施例的另一方面,还提供了一种音频节目开始时间的定位方法,该方法用于在录制的音频直播数据中定位到特定的音频节目的开始时间,包括:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种音频特征的匹配装置,包括:第一获取模块,用于获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;第一提取模块,用于对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及第一确定模块,用于对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
根据本公开实施例的另一个方面,还提供了一种音频节目开始时间的定位装置,包括:第二获取模块,用于获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;第二提取模块,用于对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;第二确定模块,用于对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及第三确定模块,用于根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
根据本公开实施例的另一个方面,还提供了一种音频特征的匹配装置,包括:第一处理器;以及第一存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
根据本公开实施例的另一个方面,还提供了一种音频节目开始时间的定位装置,包括:第二处理器;以及第二存储器,与所述第二处理器连接,用于为所述第二处理器提供处理以下处理步骤的指令:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
从而根据本申请的技术方案,通过获取音频节目的节目片头准确开始时间的第一音频信息(一分钟时长)和包括节目片头并且时间长度大于节目片头的第二音频信息(例如可以是十分钟时长)。然后通过特征提取算法对第一音频信息和第二音频信息进行特征提取。然后将提取的第一音频信息的第一特征和第二音频信息的第二特征进行比对,找到第一特征在第二特征中最有可能的位置。然后根据该位置确定第一音频信息(即音频节目的开始时间)在第二音频信息中的第一时间位置。根据以上方法可以找到该音频节目的下一个节目的开始时间,从而把下一个节目的开始时间作为该音频的结束时间。因此通过以上方式无需人为寻找广播节目的开始时间和结束时间。进而解决了现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的音频特征的匹配方法的流程示意图;
图3A是根据本公开实施例1的第一个方面所述的第二音频信息提取的流程示意图;
图3B是根据本公开实施例1的第一个方面所述的对第一音频信息进行特征提取的流程示意图;
图3C是根据本公开实施例1的第一个方面所述的对第二音频信息进行特征提取的流程示意图;
图3D是根据本公开实施例1的第一个方面所述的第一特征和第二特征匹配过程的流程示意图;
图4是根据本公开实施例1的第二个方面所述的音频节目开始时间的定位方法的流程示意图;
图5是根据本公开实施例2的第一个方面所述的音频特征的匹配装置的示意图;
图6是根据本公开实施例2的第二个方面所述的音频节目开始时间的定位装置的示意图;
图7是根据本公开实施例3的第一个方面所述的音频特征的匹配装置的示意图;以及
图8是根据本公开实施例3的第二个方面所述的音频节目开始时间的定位装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,还提供了一种音频特征的匹配和音频节目开始时间的定位的方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现音频特征的匹配和音频节目开始时间的定位的方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的音频特征的匹配和音频节目开始时间的定位的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的音频特征的匹配和音频节目开始时间的定位的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种音频特征的匹配方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;
S204:对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及
S206:对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
具体地,参考图2所示,在从事广播节目录制的人员需要对特定的音频节目(例如可以是广播节目)进行剪切,并且需要找到该音频节目的开始时间和结束时间的情况下,可以获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息(S202)。其中可以从现有的数据库中获取该音频节目的第一音频信息。并且第一音频信息可以是该音频节目的预告(例如一般广播节目会有节目单,记录音频节目的准确开始时间),然后可以从该预告中获取包括该音频节目的开始时间的一分钟时长的第一音频信息。并且第一音频信息为该音频节目的准确开始时间。并且例如可以从录制的音频直播数据中获取第二音频信息。其中第二音频信息可以包括该音频节目开始时间的十分钟的音频信息(例如该节目的开始时间为上午9点整,那么第二音频流信息即为8点55分到9点05分时长为十分钟的音频信息)。其中第二音频信息时长的十分钟由用户自定义,由于广播节目存在延时开始以及播音员说话语速等问题会导致音频节目的开始时间和结束时间和预告中的不一致,因此选取音频节目开始时间前后五分钟的音频信息,从而可以保证第二音频信息中可以包含音频节目的开始时间。
进一步地,对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征(S204)。例如可以利用预先设置的特征提取算法(例如可以但不限于是MFCC特征提取算法)提取第一音频信息的第一特征和第二音频信息的第二特征,进而例如可以通过计算设备自动(无需人为)对第一特征和第二特征进行匹配。
进一步地,对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置(S306)。例如通过匹配出第一特征在第二特征中的位置,从而可以确定第一音频信息在第二音频信息的第一时间位置。
正如背景技术中所述的,广播具有无法重播和无法定位等缺点,因此当用户或者从业人员想要重新播放想听的内容时,需要额外的专业录音设备同步录制,否则无法对广播播放的内容进行回听。并且录播的内容无法进行定位,所以需要人工获取重复回听的节目内容。目前大部分的广播电台设置有录制设备,但是录制的音频信息仍然无法准确定位广播节目的开始时间和结束时间,导致无法准确的剪切出所需的广播节目。从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的问题。
有鉴于此,根据本实施例的技术方案,通过获取音频节目的节目片头准确开始时间的第一音频信息(可以但不限于是一分钟时长,一般不超过一分钟)和包括节目片头并且时间长度大于节目片头的第二音频信息(例如可以是十分钟时长)。然后通过特征提取算法对第一音频信息和第二音频信息进行特征提取。然后将提取的第一音频信息的第一特征和第二音频信息的第二特征进行比对,找到第一特征在第二特征中最有可能的位置。然后根据该位置确定第一音频信息(即音频节目的开始时间)在第二音频信息中的第一时间位置。根据以上方法可以找到该音频节目的下一个节目的开始时间,从而把下一个节目的开始时间作为该音频的结束时间。因此通过以上方式无需人为寻找广播节目的开始时间和结束时间。进而解决了现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
可选地,获取第二音频信息的操作,包括:在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
具体地,参考图3所示,获取第二音频信息,例如可以在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻(例如音频节目的开始时间是下午9点整,那么第一时刻可以是下午8点55分,并且第二时刻可以是下午9点05分)。进一步地,在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息(例如将8点55分到9点05分之间十分钟时长的第二音频信息)。其中第一时刻和第二时刻由用户自定义,由于广播节目存在延时开始以及播音员说话语速等因素会导致音频节目的开始时间和结束时间和预告中的不一致(例如9点的音频节目在9点02播出),从而选取音频节目开始时间前后五分钟的音频信息,进而可以保证第二音频信息中可以包含音频节目的开始时间。
此外,图3示出了获取第二音频信息的流程示意图,首先判断音频节目的开始时间是否超过了系统时间(例如开始时间是下午9点,以下所述的时间均为下午时间),那么在系统时间为9点01分钟时就到了预告中所说的音频节目的开始时间,因此就可以持续获取第二音频流信息。首先获取开始时间前五分钟的音频流碎片(其中每个音频碎片的时长为一分钟),然后获取9点到9点05分的音频碎片。如果系统时间是9点03分钟时,也就是获取了8分钟的音频碎片。此时的第二音频信息的时长不足十分钟,需要继续获取音频碎片。在9点05分钟时,即可以获取到十分钟的第二音频流信息。
可选地,获取第二音频信息的操作,还包括:在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及将多个音频碎片信息进行合并,得到第二音频信息。
具体地,获取第二音频信息,例如在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息(例如获取的十分钟的音频信息为包含十个时长为一分钟的音频碎片)。然后可以将多个音频碎片信息进行合并,得到第二音频信息。因为多个时长较短的音频碎片在后期的计算中计算比较困难,因此将多个音频碎片进行合并成一个时长为十分钟的第二音频信息。从而使得后期音频信息的特征计算更加方便。
可选地,对第一音频信息进行特征提取,确定第一特征的操作,包括:将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第一特征单元集合的多个特征单元组合成第一特征。
具体地,参考图3B所示,对第一音频信息进行特征提取,确定第一特征,例如可以首先将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合。例如可以通过预先设置的分帧算法,对第一音频信息进行分帧操作,其中例如第一音频信息的时间长度为1分钟,如果将第一音频信息分割成21.333毫秒的多个音频帧,第一数量可以为(60*60)/21.333的整数部分。然后确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布。其中频谱能量分布可以是有多个比特位构成的。最后将第一特征单元集合的多个特征单元组合成第一特征。从而可以提取出第一音频信息的第一特征,进而便于节目开始时间的匹配。
此外,在对第一音频信息进行分帧操作之前,首先对可以对第一音频信息进行预加重处理。其中人在发声的过程中,由于是唇端在发声,因此会造成高频信号比中频信号和低频信号弱,从而通过预加重是为了突出第一音频信息中的高频部分的能量信息。
可选地,确定与第一音频帧集合对应的第一特征单元集合的操作,包括:根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
具体地,参考图3B所示,确定与第一音频帧集合对应的第一特征单元集合的操作,例如首先可以根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧。其中特征提取算法的下一步是快速傅里叶变换,而快速傅里叶变换要求信号具有周期性。分帧得到的音频帧信号首尾不连续,所以通过加窗算法例如汉明窗(汉明窗可以使窗边界处信号平滑衰减)使信号首尾连续,所以通过加窗算法处理后的音频帧可以被视作一个具有周期性的音频帧信号。其中加窗算法的公式如下:
W[n]=0.54-0.46cos(2πn/M)
其中M是帧的长度,n为自然数。
进一步地,例如可以通过傅里叶变换,根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息。从而可以在频域信息上对第一音频信息进行特征提取。
其中傅里叶变换的公式如下:
进一步地,根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。例如可以通过对频域信息进行Mel滤波操作,得到能量信息,进一步通过能量信息得到能量的分布(例如:3425793845......,其中每个数值对应一个能量值)。其中Mel滤波公式如下:
M(f)=1125ln(1+f/700)
M-1(m)=700(exp(m/1125)-1)
其中f以及m均为频率。
其中当能量上升的情况下我们记作0(例如上边所示3425793845......中的34,从3升到4即为上升),当能量下降的情况下记作1(例如上边所示的42,从4下降到2即为下降)。从而根据能量分布情况,得到由多个比特位构成的特征单元,并且由特征单元构成第一特征集合,进而更加便于后期的特征匹配过程。
可选地,对第二音频信息进行特征提取,确定第二特征的操作,包括:将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第二特征单元集合的多个特征单元组合成第二特征。
具体地,参考图3C所示,对第二音频信息进行特征提取,确定第二特征,例如可以首先将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合。例如可以通过预先设置的分帧算法,对第二音频信息进行分帧操作,其中例如第二音频信息的时间长度为10分钟,如果将第二音频信息分割成21.333毫秒的多个音频帧,第二数量可以为(10*60*60)/21.333的整数部分。并且其中第二音频信息的时长大于第一音频信息的时长,因此第二数量大于第一数量。然后确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,并且其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布。其中频谱能量分布可以是有多个比特位构成的。最后将第二特征单元集合的多个特征单元组合成第二特征。从而可以提取出第二音频信息的第二特征,进而便于节目开始时间的匹配。
可选地,确定与第三音频帧集合对应的第二特征单元集合的操作,包括:根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第二频域信息集合,确定分别与第二音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
具体地,参考图3C所示,对第二音频信息进行特征提取,确定第二特征集合的操作参考上面所述的对第一音频信息进行特征提取确定第一特征集合的过程,这里就不再一一赘述。从而得到由多个比特位构成的特征单元,来构成第二特征集合,进而更加便于后期的特征匹配过程。
可选地,对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置的操作,包括:基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
具体地,参考图3D所示,对第一特征集合和第二特征集合进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置的操作,例如可以首先基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元。其中例如第一音频帧集合中包含n个音频帧并且第二音频帧集合中包括N个音频帧,从而第一特征中包括n个特征单元而第二特征中包括N个特征单元,那么就可以从第二特征中截取(N-n+1)片段和第一特征作匹配。然后分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。其中每个特征单元可以但不限于由32个比特位构成(例如:11100001110101010000001111000111)。参见图3D所示,假设n=3,即第一特征包括3个特征单元,然后例如在第一次匹配的过程中第一个单元匹配上的比特位的个数为20个、第二个单元匹配上的比特位个数为5个以及第三个单元匹配上的比特位的个数为10个,那么第一次匹配的相似度为(20+5+10)/(32*3)。以此类推,可以分别计算出所有的匹配过程的相似度(例如第一音频信息包含n=3个单元,第二音频信息包含N=14个单元,那么可以匹配N-n+1次,即12次)。因此可以计算出12个相似度,然后从12个相似度中寻找出最大的相似度,就可以确定第一音频信息在第二音频信息中的时间位置,即节目片头的开始时间在第二音频信息中的频域位置。参考图3D所示,假设第二次匹配时相似度最高,则第二次匹配时的特征片段的起始特征单元为特征单元2;假设第(N-n+1)次匹配时相似度最高,则第二次匹配时的特征片段的起始特征单元为特征单元(N-n+1),在图3D中例如为特征单元11。
然后参考图3C所示,在第二音频中,根据相似度最大的特征片段的起始特征单元所对应的音频帧之前的音频帧的个数计算节目片头的开始时间在第二音频信息中的第一时间位置。例如当在第二音频信号的第12个帧的位置相似度最高,那么在相似度最高的频域位置之前存在11个第二帧,通过帧的时间长度就可以计算出节目片头在第二音频信息中的第一时间位置。从而通过以上所述的匹配方法,进而可以在第二音频信息中找到片头节目的开始位置。
可选地,基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段的操作,包括:以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
具体地,参考图3D所示,基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段的操作,例如首先可以以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。例如图3D中所示的在第一特征的长度n=3并且第二特征的长度N=14的情况下,那么特征提取窗口的长度即为3(3是指特征单元的数量)。然后参考图3D所示,依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。从而通过这种方式从第二特征中提取出多个特征片段并依次与第一特征进行匹配,进而完成第一特征与第二特征的匹配。
此外,根据本实施例的第二个方面,提供了一种音频节目开始时间的定位方法。图4示出了该方法的流程示意图,参考图4所示,该方法包括:
S402:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;
S404:对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;
S406:对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及
S408:根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
具体地,根据节目片头的开始时间在第二音频信息中的第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置(S408)。其中由于第二音频信息是从录制的音频直播数据中提取的,从而当确定第二音频信息中音频节目开始的时间位置的情况下,进而可以确定在音频直播数据中音频节目的开始的时间位置。
可选地,获取第二音频信息的操作,包括:在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
可选地,获取第二音频信息的操作,还包括:在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及将多个音频碎片信息进行合并,得到第二音频信息。
可选地,对第一音频信息进行特征提取,确定第一特征的操作,包括:将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第一特征单元集合的多个特征单元组合成第一特征。
可选地,确定与第一音频帧集合对应的第一特征单元集合的操作,包括:根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
可选地,对第二音频信息进行特征提取,确定第二特征的操作,包括:将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第二特征单元集合的多个特征单元组合成第二特征。
可选地,确定与第三音频帧集合对应的第二特征单元集合的操作,包括:根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第二频域信息集合,确定分别与第三音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
可选地,对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置的操作,包括:基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段的操作,包括:以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
此外,参考图1所示,根据本实施例的第三个方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
从而根据本实施例,通过获取音频节目的节目片头准确开始时间的第一音频信息(一分钟时长)和包括节目片头并且时间长度大于节目片头的第二音频信息(例如可以是十分钟时长)。然后通过特征提取算法对第一音频信息和第二音频信息进行特征提取。然后将提取的第一音频信息的第一特征和第二音频信息的第二特征进行比对,找到第一特征在第二特征中最有可能的位置。然后根据该位置确定第一音频信息(即音频节目的开始时间)在第二音频信息中的第一时间位置。根据以上方法可以找到该音频节目的下一个节目的开始时间,从而把下一个节目的开始时间作为该音频的结束时间。因此通过以上方式无需人为寻找广播节目的开始时间和结束时间。进而解决了现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图5示出了根据本实施例的第一个方面所述的音频特征的匹配装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:第一获取模块510,用于获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;第一提取模块520,用于对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及第一确定模块530,用于对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,第一获取模块510,包括:时刻确定第一子模块,用于在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及第二音频信息确定第一子模块,用于在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
可选地,第一获取模块510,还包括:音频碎片信息获取第一子模块,用于在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及第二音频信息得到第一子模块,用于将多个音频碎片信息进行合并,得到第二音频信息。
可选地,第一提取模块520,包括:第一音频帧集合确定第一子模块,用于将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;第一特征单元集合确定第一子模块,用于确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及第一特征合并第一子模块,用于将第一特征单元集合的多个特征单元组合成第一特征。
可选地,第一特征单元集合确定第一子模块,包括:第二音频帧集合确定第一子单元,用于根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;第一频域信息集合确定第一子单元,用于根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第三音频帧集合的多个音频帧分别对应的多个频域信息;以及第一特征单元集合确定第一子单元,用于根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
可选地,第一提取模块520,包括:第三音频帧集合确定第一子模块,用于将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;第二特征单元集合确定第一子模块,用于确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及第二特征合并第一子模块,用于将第二特征单元集合的多个特征单元组合成第二特征。
可选地,第二特征单元集合确定第一子模块,包括:第四音频帧集合确定第一子单元,用于根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;第二频域信息集合确定第一子单元,用于根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及第二特征单元集合确定第一子单元,用于根据第二频域信息集合,确定分别与第三音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
可选地,第一确定模块530,包括:特征片段提取第一子模块,用于基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及第一时间位置确定第一子模块,用于分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,特征片段提取子模块,包括:第一特征片段提取第一子单元,用于以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及第二特征片段提取第一子单元,用于依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
此外,图6示出了根据本实施例的第二个方面所述的音频节目开始时间的定位装置600,该装置600与根据实施例1的第二个方面所述的方法相对应。参考图6所示,该装置600包括:第二获取模块610,用于获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;第二提取模块620,用于对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;第二确定模块630,用于对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及第三确定模块640,用于根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
可选地,第一获取模块610,包括:时刻确定第二子模块,用于在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及第二音频信息确定第二子模块,用于在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
可选地,第一获取模块610,还包括:音频碎片信息获取第二子模块,用于在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及第二音频信息得到第二子模块,用于将多个音频碎片信息进行合并,得到第二音频信息。
可选地,第二提取模块620,包括:第一音频帧集合确定第二子模块,用于将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;第一特征单元集合确定第二子模块,用于确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及第一特征合并第二子模块,用于将第一特征单元集合的多个特征单元组合成第一特征。
可选地,第一音频帧集合确定第二子模块,包括:第二音频帧集合确定第二子单元,用于根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;第一频域信息集合确定第二子单元,用于根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息;以及第一特征单元集合确定第二子单元,用于根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
可选地,第二提取模块620,包括:第三音频帧集合确定第二子模块,用于将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;第二特征单元集合确定第二子模块,用于确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及第二特征合并第二子模块,用于将第二特征单元集合的多个特征单元组合成第二特征。
可选地,第二特征单元集合确定第二子模块,包括:第四音频帧集合确定第二子单元,用于根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;第二频域信息集合确定第二子单元,用于根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及第二特征单元集合确定第二子单元,用于根据第二频域信息集合,确定分别与第三音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
可选地,第二确定模块630,包括:特征片段提取第二子模块,用于基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及第一时间位置确定第二子模块,用于分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,特征片段提取第二子模块,包括:第一特征片段提取第二子单元,用于以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;第二特征片段提取第二子单元,用于以及依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
从而根据本实施例,通过获取音频节目的节目片头准确开始时间的第一音频信息(一分钟时长)和包括节目片头并且时间长度大于节目片头的第二音频信息(例如可以是十分钟时长)。然后通过特征提取算法对第一音频信息和第二音频信息进行特征提取。然后将提取的第一音频信息的第一特征和第二音频信息的第二特征进行比对,找到第一特征在第二特征中最有可能的位置。然后根据该位置确定第一音频信息(即音频节目的开始时间)在第二音频信息中的第一时间位置。根据以上方法可以找到该音频节目的下一个节目的开始时间,从而把下一个节目的开始时间作为该音频的结束时间。因此通过以上方式无需人为寻找广播节目的开始时间和结束时间。进而解决了现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
实施例3
图7示出了根据本实施例的第一个方面所述的音频特征的匹配装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:第一处理器710;以及第一存储器720,与所述第一处理器710连接,用于为所述第一处理器710提供处理以下处理步骤的指令:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;以及对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,获取第二音频信息的操作,包括:在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
可选地,获取第二音频信息的操作,还包括:在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及将多个音频碎片信息进行合并,得到第二音频信息。
可选地,对第一音频信息进行特征提取,确定第一特征的操作,包括:将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第一特征单元集合的多个特征单元组合成第一特征。
可选地,确定与第一音频帧集合对应的第一特征单元集合的操作,包括:根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
可选地,对第二音频信息进行特征提取,确定第二特征的操作,包括:将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第二特征单元集合的多个特征单元组合成第二特征。
可选地,确定与第三音频帧集合对应的第二特征单元集合的操作,包括:根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第二频域信息集合,确定分别与第三音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
可选地,对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置的操作,包括:基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段的操作,包括:以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
此外,图8示出了根据本实施例的第二个方面所述的音频节目开始时间的定位装置800,该装置800与根据实施例1的第二个方面所述的方法相对应。参考图8所示,该装置800包括:第二处理器810;以及第二存储器820,与所述第二处理器810连接,用于为所述第二处理器810提供处理以下处理步骤的指令:获取与音频节目的节目片头对应的第一音频信息以及包含节目片头并且时间长度大于节目片头的第二音频信息;对第一音频信息和第二音频信息进行特征提取,确定第一音频信息的第一特征以及第二音频信息的第二特征;对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置;以及根据第一时间位置,确定音频节目的开始时间在音频直播数据中的第二时间位置。
可选地,获取第二音频信息的操作,包括:在录制的音频直播数据中,确定在节目片头的开始时间之前的第一时刻以及在节目片头的结束时间之后的第二时刻;以及在音频直播数据中获取第一时刻和第二时刻之间的音频信息作为第二音频信息。
可选地,获取第二音频信息的操作,还包括:在音频直播数据中获取第一时刻和第二时刻之间的多个音频碎片信息;以及将多个音频碎片信息进行合并,得到第二音频信息。
可选地,对第一音频信息进行特征提取,确定第一特征的操作,包括:将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;确定与第一音频帧集合对应的第一特征单元集合,其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元,并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第一特征单元集合的多个特征单元组合成第一特征。
可选地,确定与第一音频帧集合对应的第一特征单元集合的操作,包括:根据第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第二音频帧集合,确定第一频域信息集合,其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第一频域信息集合,确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第一特征单元集合。
可选地,对第二音频信息进行特征提取,确定第二特征的操作,包括:将第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;确定与第三音频帧集合对应的第二特征单元集合,其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元,其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及将第二特征单元集合的多个特征单元组合成第二特征。
可选地,根据第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;根据第四音频帧集合,确定第二频域信息集合,其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息;以及根据第二频域信息集合,确定分别与第三音频帧集合的多个音频帧对应的多个由比特位构成的特征单元,作为第二特征单元集合。
可选地,对第一特征和第二特征进行匹配,确定节目片头的开始时间在第二音频信息中的第一时间位置的操作,包括:基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段,其中特征片段分别包括第一数量的多个特征单元;以及分别计算第一特征与多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在第二音频信息中的时间位置,确定节目片头的开始时间在第二音频信息中的第一时间位置。
可选地,基于构成第二特征单元集合的特征单元,从第二特征中提取多个特征片段的操作,包括:以第一数量个特征单元作为特征提取窗口的窗口范围,从第二特征的起始特征单元开始,提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及依次将特征提取窗口平移一个特征单元,并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
从而根据本实施例,通过获取音频节目的节目片头准确开始时间的第一音频信息(一分钟时长)和包括节目片头并且时间长度大于节目片头的第二音频信息(例如可以是十分钟时长)。然后通过特征提取算法对第一音频信息和第二音频信息进行特征提取。然后将提取的第一音频信息的第一特征和第二音频信息的第二特征进行比对,找到第一特征在第二特征中最有可能的位置。然后根据该位置确定第一音频信息(即音频节目的开始时间)在第二音频信息中的第一时间位置。根据以上方法可以找到该音频节目的下一个节目的开始时间,从而把下一个节目的开始时间作为该音频的结束时间。因此通过以上方式无需人为寻找广播节目的开始时间和结束时间。进而解决了现有技术中存在的录制的广播音频信息中无法准确定位广播节目的开始时间和结束时间,从而仍然需要人工判断广播节目的开始时间和结束时间,进而导致在录制的音频信息中获取广播节目费时费力并且效率低的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种音频特征的匹配方法,所述方法用于确定音频节目的节目开始时间,其特征在于,包括:
获取与所述音频节目的节目片头对应的第一音频信息以及包含所述节目片头并且时间长度大于所述节目片头的第二音频信息;
对所述第一音频信息和所述第二音频信息进行特征提取,确定所述第一音频信息的第一特征以及所述第二音频信息的第二特征;以及
对所述第一特征和所述第二特征进行匹配,确定所述节目片头的开始时间在所述第二音频信息中的第一时间位置;获取所述第二音频信息的操作,包括:
在录制的音频直播数据中,确定在所述节目片头的开始时间之前的第一时刻以及在所述节目片头的结束时间之后的第二时刻;以及
在所述音频直播数据中获取所述第一时刻和所述第二时刻之间的音频信息作为所述第二音频信息;
确定所述第一特征的操作,包括:
将所述第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合;
确定与所述第一音频帧集合对应的第一特征单元集合,其中所述第一特征单元集合包括分别与所述第一音频帧集合的所述多个音频帧对应的多个特征单元,并且其中所述第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及
将所述第一特征单元集合的所述多个特征单元组合成所述第一特征;
确定与所述第一音频帧集合对应的第一特征单元集合的操作,包括:
根据所述第一音频帧集合,利用预先设置的加窗算法确定第二音频帧集合,其中所述第二音频帧集合的音频帧为与所述第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧;
根据所述第二音频帧集合,确定第一频域信息集合,其中所述第一频域信息集合包括与所述第二音频帧集合的多个音频帧分别对应的多个频域信息;以及
根据所述第一频域信息集合,确定分别与所述第一音频帧集合的所述多个音频帧对应的多个由比特位构成的特征单元,作为所述第一特征单元集合;
通过对频域信息进行Mel滤波操作,得到能量信息,通过能量信息得到能量的分布,其中当能量上升的情况下记作0,当能量下降的情况下记作1,从而根据能量分布情况,得到由多个比特位构成的特征单元;
对所述第二音频信息进行特征提取,确定所述第二特征的操作,包括:
将所述第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合;
确定与所述第三音频帧集合对应的第二特征单元集合,其中所述第二特征单元集合包括分别与所述第三音频帧集合的所述多个音频帧对应的多个特征单元,其中所述第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布;以及
将所述第二特征单元集合的所述多个特征单元组合成所述第二特征;
确定与所述第三音频帧集合对应的第二特征单元集合的操作,包括:
根据所述第三音频帧集合,利用预先设置的加窗算法确定第四音频帧集合,其中所述第四音频帧集合的音频帧为与所述第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧;
根据所述第四音频帧集合,确定第二频域信息集合,其中所述第二频域信息集合包括与所述第四音频帧集合的多个音频帧分别对应的多个频域信息;以及
根据所述第二频域信息集合,确定分别与所述第三音频帧集合的所述多个音频帧对应的多个由比特位构成的特征单元,作为所述第二特征单元集合;
对所述第一特征和第二特征进行匹配,确定所述节目片头的开始时间在所述第二音频信息中的第一时间位置的操作,包括:
基于构成所述第二特征单元集合的特征单元,从所述第二特征中提取多个特征片段,其中所述特征片段分别包括所述第一数量的多个特征单元;以及
分别计算所述第一特征与所述多个特征片段的相似度,并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在所述第二音频信息中的时间位置,确定所述节目片头的开始时间在所述第二音频信息中的所述第一时间位置。
2.根据权利要求1所述的方法,其特征在于,获取所述第二音频信息的操作,还包括:
在所述音频直播数据中获取所述第一时刻和所述第二时刻之间的多个音频碎片信息;以及
将所述多个音频碎片信息进行合并,得到所述第二音频信息。
3.根据权利要求1所述的方法,其特征在于,基于构成所述第二特征单元集合的特征单元,从所述第二特征中提取多个特征片段的操作,包括:
以所述第一数量个特征单元作为特征提取窗口的窗口范围,从所述第二特征的起始特征单元开始,提取所述特征提取窗口的窗口范围内的多个特征单元以便构成特征片段;以及
依次将所述特征提取窗口平移一个特征单元,并提取平移后的所述特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。
4.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至3中任意一项所述的方法。
5.一种应用权利要求1-3任一项所述音频特征的匹配方法的音频特征匹配装置,其特征在于,包括:
第一获取模块,用于获取与所述音频节目的节目片头对应的第一音频信息以及包含所述节目片头并且时间长度大于所述节目片头的第二音频信息;
第一提取模块,用于对所述第一音频信息和所述第二音频信息进行特征提取,确定所述第一音频信息的第一特征以及所述第二音频信息的第二特征;以及
第一确定模块,用于对所述第一特征和所述第二特征进行匹配,确定所述节目片头的开始时间在所述第二音频信息中的第一时间位置。
CN202010236267.6A 2020-03-30 2020-03-30 音频特征的匹配和音频节目开始时间的定位的方法及装置 Active CN111489764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236267.6A CN111489764B (zh) 2020-03-30 2020-03-30 音频特征的匹配和音频节目开始时间的定位的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236267.6A CN111489764B (zh) 2020-03-30 2020-03-30 音频特征的匹配和音频节目开始时间的定位的方法及装置

Publications (2)

Publication Number Publication Date
CN111489764A CN111489764A (zh) 2020-08-04
CN111489764B true CN111489764B (zh) 2023-09-22

Family

ID=71812581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236267.6A Active CN111489764B (zh) 2020-03-30 2020-03-30 音频特征的匹配和音频节目开始时间的定位的方法及装置

Country Status (1)

Country Link
CN (1) CN111489764B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634939A (zh) * 2020-12-11 2021-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种音频识别方法、装置、设备、介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257546A (ja) * 2009-04-28 2010-11-11 Onkyo Corp コンテンツ抽出装置およびそのプログラム
CN102142257A (zh) * 2010-12-28 2011-08-03 北大方正集团有限公司 一种音频信号处理方法及装置
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN104185066A (zh) * 2014-03-04 2014-12-03 无锡天脉聚源传媒科技有限公司 一种自动校验电子节目菜单的方法及装置
CN104810025A (zh) * 2015-03-31 2015-07-29 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637769B (zh) * 2013-10-15 2018-01-02 三菱电机株式会社 数字广播接收装置以及选台方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010257546A (ja) * 2009-04-28 2010-11-11 Onkyo Corp コンテンツ抽出装置およびそのプログラム
CN102142257A (zh) * 2010-12-28 2011-08-03 北大方正集团有限公司 一种音频信号处理方法及装置
CN103294696A (zh) * 2012-02-27 2013-09-11 盛乐信息技术(上海)有限公司 音视频内容检索方法及系统
CN104185066A (zh) * 2014-03-04 2014-12-03 无锡天脉聚源传媒科技有限公司 一种自动校验电子节目菜单的方法及装置
CN104810025A (zh) * 2015-03-31 2015-07-29 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Vaia Panagiotou等.PCA Summarization for Audio Song Identification using Gaussian Mixture Models.2013 18th International Conference on Digital Signal Processing (DSP).2013,1-6. *
张兴忠等.一种高效过滤提纯音频大数据检索方法.计算机研究与发展.2015,第52卷(第09期),2025-2032. *

Also Published As

Publication number Publication date
CN111489764A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN108062409B (zh) 直播视频摘要的生成方法、装置及电子设备
JP6576557B2 (ja) 歌曲確定方法及び装置、記憶媒体
CN104768082A (zh) 一种音视频播放信息处理方法及服务器
CN103077734A (zh) 录制的音频信号的时间对准
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN106055659B (zh) 一种歌词数据匹配方法及其设备
CN112312167B (zh) 广播内容的监测方法、装置、存储介质和电子设备
CN103546634A (zh) 一种手持设备主题控制方法及装置
CN104091596A (zh) 一种乐曲识别方法、系统和装置
CN111489764B (zh) 音频特征的匹配和音频节目开始时间的定位的方法及装置
CN108174133A (zh) 一种庭审录像展示方法、装置、电子设备及存储介质
CN102737690B (zh) 音乐应用启动的方法及终端
US20180052922A1 (en) A system, content editing server, audio recording slave device and content editing interface for distributed live performance scheduled audio recording, cloud-based audio content editing and online content distribution of audio track and associated metadata
CN104009965A (zh) 一种展示移动媒体信息的方法、装置和系统
CN107481739B (zh) 音频切割方法及装置
CN105047202B (zh) 一种音频处理方法、装置及终端
CN109510907B (zh) 铃音设置方法及装置
CN110428798A (zh) 人声与伴奏同步方法、蓝牙设备、终端及存储介质
CN111540376A (zh) 广播节目智能碎片化的方法、装置及存储介质
CN111540377B (zh) 广播节目智能碎片化的系统
CN112037739A (zh) 一种数据处理方法、装置、电子设备
CN102142271B (zh) 同步显示波形的手持式多媒体播放器与复读方法
CN103699583A (zh) 一种实现直播时移的方法及电子设备
CN109165909B (zh) 一种广告屏管理系统
CN103489119A (zh) 一种广告监测方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant