CN111540377B

CN111540377B - 广播节目智能碎片化的系统

Info

Publication number: CN111540377B
Application number: CN202010236959.0A
Authority: CN
Inventors: 潘峰; 杨硕; 杨会林; 雷鹏; 孟瑜; 闫卓; 郭欣
Original assignee: Beijing Xunshan Network Technology Co ltd
Current assignee: Beijing Xunshan Network Technology Co ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-08-25
Anticipated expiration: 2040-03-30
Also published as: CN111540377A

Abstract

本申请公开了一种广播节目智能碎片化的系统，包括：录制服务器、计算设备以及音频处理服务器，其中录制服务器配置用于录制与广播节目相关的音频直播数据，生成包括广播节目的节目音频在内的多个音频碎片信息，并发送至计算设备以及音频处理服务器；计算设备配置用于接收录制服务器发送的多个音频碎片信息，根据与广播节目的节目片头对应的第一音频信息和多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间，并发送至音频处理服务器；以及音频处理服务器配置用于从从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。

Description

广播节目智能碎片化的系统

技术领域

本申请涉及广播节目智能碎片化技术领域，特别是涉及一种广播节目智能碎片化的系统。

背景技术

在互联网时代，广播逐渐处于“窄播化”状态，现阶段听众的收听习惯与以往相比有了巨大的变化，导致传统广播面临巨大的挑战。同时，广播的市场格局和产业生态还受到移动电台等移动音频新品类的冲击和重构。

由于移动电台，移动音频，媒体新融合等需要，广播所具有的“无法重播”、“无法定位”的特质成为缺点。当用户或从业人员需要重新播放需要的内容时，除非有其他专业的设备同步录制，否则无法进行回听。尽管目前大部分广播电台均配备录制设备，但是由于录制的音频流信息中无法定位的特性，即使有专业设备录制，也无法在非人工环境下在录制的音频流信息中准确定位广播节目的开始时间和结束时间，只能通过人工判断节目何时开始结束，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便。

针对上述的现有技术中存在的由于无法在非人工环境下准确定位录制的音频流信息中的目标广播节目的开始时间和结束时间，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种广播节目智能碎片化的系统，以至少解决现有技术中存在的由于无法在非人工环境下准确定位录制的音频流信息中的目标广播节目的开始时间和结束时间，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便的技术问题。

根据本公开实施例，提供了一种广播节目智能碎片化的系统，包括：录制服务器、计算设备以及音频处理服务器，其中录制服务器配置用于录制与广播节目相关的音频直播数据，对录制得到的音频直播数据进行碎片化处理，生成包括广播节目的节目音频在内的多个音频碎片信息，并将多个音频碎片信息发送至计算设备以及音频处理服务器；计算设备配置用于接收录制服务器发送的多个音频碎片信息，根据与广播节目的节目片头对应的第一音频信息和多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间，并将多个音频碎片信息、节目开始时间和节目结束时间发送至音频处理服务器；以及音频处理服务器配置用于从录制服务器接收多个音频碎片信息以及接收计算设备发送的节目开始时间和节目结束时间，从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。

可选地，广播节目的节目片头包含多个候选节目片头，并且计算设备包括识别服务器以及与识别服务器通信连接的节目分析服务器，其中识别服务器配置用于根据从录制服务器接收的多个音频碎片信息，确定分别与多个候选节目片头对应的并且时间长度大于候选节目片头的多个第二音频信息，并根据第一音频信息和多个第二音频信息，生成与广播节目相关的识别结果，其中识别结果包括广播节目的多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息，其中相似度信息用于指示候选节目片头与对应的第二音频信息之间的相似度；以及节目分析服务器配置用于根据从识别服务器获取的与广播节目相关的识别结果以及与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目开始时间和节目结束时间，并将节目开始时间和节目结束时间发送至音频处理服务器。

可选地，节目分析服务器包括第一分析模块和第二分析模块，其中第一分析模块配置用于根据从识别服务器获取的与广播节目相关的识别结果，确定广播节目的节目开始时间；以及第二分析模块配置用于根据从识别服务器获取的与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目结束时间。

可选地，根据从识别服务器获取的与广播节目相关的识别结果，确定广播节目的节目开始时间的操作，包括：根据与广播节目相关的识别结果，分析多个候选节目片头的相似度是否大于预设的相似度阈值；在多个候选节目片头的相似度大于相似度阈值的情况下，将与相似度最高的候选节目片头对应的候选节目开始时间确定为节目开始时间；以及在多个候选节目开始时间的相似度不大于相似度阈值的情况下，获取与广播节目相关的节目单信息，并根据节目单信息确定节目开始时间。

可选地，根据从录制服务器接收的多个音频碎片信息，确定分别与多个候选节目片头对应的并且时间长度大于候选节目片头的多个第二音频信息的操作，包括：确定在每一候选节目片头的开始时间之前的第一时刻以及在候选节目片头的结束时间之后的第二时刻；从多个音频碎片信息中获取第一时刻和第二时刻之间的多个第二音频碎片信息，确定第二音频碎片信息集合；以及对第二音频碎片信息集合中的与同一个候选节目片头相关的第二音频碎片信息进行合并，得到多个第二音频信息。

可选地，根据第一音频信息和多个第二音频信息，生成与广播节目相关的识别结果的操作，包括：对第一音频信息和多个第二音频信息进行特征提取，确定第一音频信息的第一特征和多个第二音频信息的多个第二特征；以及分别将第一特征与多个第二特征进行匹配，确定多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息。

可选地，还包括听听FM管理平台，听听FM管理平台配置用于上传以下的至少一项信息：与广播节目的节目片头对应的第一音频信息、与广播节目相关的节目单信息以及与广播节目对应的节目音频。

可选地，还包括客户端，客户端与听听FM管理平台通信连接，配置用于从听听FM管理平台读取与广播节目对应的节目音频。

可选地，录制服务器包括转码模块和第一存储模块，其中转码模块配置用于对音频直播数据进行转码操作；以及第一存储模块配置用于从转码模块接收转码后的音频直播数据，并存储转码后的音频直播数据。

可选地，识别服务器包括匹配模块和第二存储模块，其中匹配模块配置用于将多个音频碎片信息与预设的多个节目台进行匹配；以及第二存储模块配置用于根据从匹配模块接收的匹配结果，将多个音频碎片信息分别存储至音频碎片数据库中的与各自匹配的节目台对应的文件。

在本公开实施例中，广播节目智能碎片化的系统首先通过录制服务器录制与广播节目相关的音频直播数据，并生成包括广播节目的节目音频在内的多个音频碎片信息，便于后续计算设备确定广播节目的开始结束时间。然后通过计算设备根据与广播节目的节目片头对应的第一音频信息和生成的多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间，实现了无需人为的确定广播节目的节目开始时间和节目结束时间。最后，通过音频处理服务器根据多个音频碎片信息、节目开始时间和节目结束时间，从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。通过这种方式，达到了可以在非人工环境下准确定位出录制的音频流信息中的目标广播节目的开始时间和结束时间，然后准确的从录制的音频流信息中剪切出需要的节目音频，从而大大降低了用户与从业人员的不便的技术效果。进而解决了现有技术中存在的由于无法在非人工环境下准确定位录制的音频流信息中的目标广播节目的开始时间和结束时间，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是根据本公开实施例所述的广播节目智能碎片化的系统的结构示意图；

图2是根据本公开实施例所述的对第一音频信息进行特征提取的流程示意图；

图3是根据本公开实施例所述的对第二音频信息进行特征提取的流程示意图；以及

图4是根据本公开实施例所述的第一特征和第二特征匹配过程的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

图1示例性的示出了本实施例所述的广播节目智能碎片化的系统。参照图1所示，本实施例，提供了一种广播节目智能碎片化的系统，包括：录制服务器10、计算设备20以及音频处理服务器30。其中录制服务器10配置用于录制与广播节目相关的音频直播数据，对录制得到的音频直播数据进行碎片化处理，生成包括广播节目的节目音频在内的多个音频碎片信息，并将多个音频碎片信息发送至计算设备20以及音频处理服务器30；计算设备20配置用于接收录制服务器10发送的多个音频碎片信息，根据与广播节目的节目片头对应的第一音频信息和多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间，并将多个音频碎片信息、节目开始时间和节目结束时间发送至音频处理服务器30；以及音频处理服务器30用于从录制服务器10接收多个音频碎片信息以及接收计算设备20发送的节目开始时间和节目结束时间，从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。

正如背景技术中所述的，由于移动电台，移动音频，媒体新融合等需要，广播所具有的“无法重播”、“无法定位”的特质成为缺点。当用户或从业人员需要重新播放需要的内容时，除非有其他专业的设备同步录制，否则无法进行回听。尽管目前大部分广播电台均配备录制设备，但是由于录制的音频流信息中无法定位的特性，即使有专业设备录制，也无法在非人工环境下在录制的音频流信息中准确定位广播节目的开始时间和结束时间，只能通过人工判断节目何时开始结束，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便。

针对上述的现有技术中存在的问题，参照图1所示，在本实施例中，首先通过录制服务器10录制与广播节目相关的音频直播数据，然后对录制得到的音频直播数据进行碎片化处理，生成包括广播节目的节目音频在内的多个音频碎片信息，并将多个音频碎片信息发送至计算设备20以及音频处理服务器30。

进一步地，通过计算设备20根据与广播节目的节目片头对应的第一音频信息以及从录制服务器10接收的多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间。其中，广播节目以早间新闻节目为例，可以根据早间新闻节目的第一音频信息，从包括早间新闻节目在内的多个音频碎片信息中找到相匹配的音频碎片，从而确定早间新闻节目的节目开始时间。根据以上方法可以找到早间新闻节目的下一个节目的开始时间，然后把下一个节目的开始时间的前一时刻作为该早间新闻节目的节目结束时间。通过以上方式无需人为的确定广播节目的节目开始时间和节目结束时间。

最后，通过音频处理服务器30根据从录制服务器10接收多个音频碎片信息以及接收计算设备20发送的节目开始时间和节目结束时间，从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。例如，在确定早间新闻节目的节目开始时间和节目结束时间后(例如，节目开始时间为8:00，节目结束时间为8:30)，从多个音频碎片信息中获取与从8:00至8:30这个时间段相关的多个第一音频碎片信息。最后，将多个第一音频碎片信息进行合并和/剪切，得到与早间新闻节目对应的节目音频。其中，在对多个第一音频碎片信息进行合并得到的音频信息中包含与早间新闻节目无关的其他音频的情况下，需要对合并得到的音频信息进行剪切，从而得到与早间新闻节目对应的节目音频。

从而，在本实施例中，广播节目智能碎片化的系统首先通过录制服务器10录制与广播节目相关的音频直播数据，并生成包括广播节目的节目音频在内的多个音频碎片信息，便于后续计算设备20确定广播节目的开始结束时间。然后通过计算设备20根据与广播节目的节目片头对应的第一音频信息和生成的多个音频碎片信息，计算广播节目的节目开始时间和节目结束时间，实现了无需人为的确定广播节目的节目开始时间和节目结束时间。最后，通过音频处理服务器30根据多个音频碎片信息、节目开始时间和节目结束时间，从多个音频碎片信息中确定与从节目开始时间至节目结束时间的时间段相关的多个第一音频碎片信息，并对多个第一音频碎片信息进行合并和/或剪切，得到与广播节目对应的节目音频。通过这种方式，达到了可以在非人工环境下准确定位出录制的音频流信息中的目标广播节目的开始时间和结束时间，然后准确的剪切出需要的节目音频，从而大大降低了用户与从业人员的不便的技术效果。进而解决了现有技术中存在的由于无法在非人工环境下准确定位录制的音频流信息中的目标广播节目的开始时间和结束时间，因此无法准确的剪切出需要的节目音频，导致用户与从业人员极为不便的技术问题。

可选地，广播节目的节目片头包含多个候选节目片头，并且计算设备20包括识别服务器210以及与识别服务器210通信连接的节目分析服务器220，其中识别服务器210配置用于根据从录制服务器10接收的多个音频碎片信息，确定分别与多个候选节目片头对应的并且时间长度大于候选节目片头的多个第二音频信息，并根据第一音频信息和多个第二音频信息，生成与广播节目相关的识别结果，其中识别结果包括广播节目的多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息，其中相似度信息用于指示候选节目片头与对应的第二音频信息之间的相似度；以及节目分析服务器220配置用于根据从识别服务器210获取的与广播节目相关的识别结果以及与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目开始时间和节目结束时间，并将节目开始时间和节目结束时间发送至音频处理服务器30。

具体地，在实际应用中，一个广播节目一般具有多个候选节目片头，用以从不同的维度来对广播节目进行宣传。为了进一步减轻计算设备20的计算量，参照图1所示，首先通过识别服务器210根据多个音频碎片信息，确定分别与多个候选节目片头对应的并且时间长度大于候选节目片头的多个第二音频信息。然后，由识别服务器210根据第一音频信息和多个第二音频信息，生成与广播节目相关的识别结果。其中识别结果包括广播节目的多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息。其中相似度信息用于指示候选节目片头与对应的第二音频信息之间的相似度。

进一步地，通过节目分析服务器220根据从识别服务器210获取的与广播节目相关的识别结果以及与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目开始时间和节目结束时间，并将节目开始时间和节目结束时间发送至音频处理服务器30。通过以上方式无需人为的确定广播节目的节目开始时间和节目结束时间。

此外，在广播节目只有一个节目片头的情况下，也是先通过识别服务器210确定根据多个音频碎片信息，确定与该节目片头对应的第二音频信息，并根据第一音频信息和第二音频信息，生成与广播节目相关的识别结果。最后，通过节目分析服务器220根据从识别服务器210接收的与广播节目相关的识别结果以及与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目开始时间和节目结束时间。

可选地，节目分析服务器220包括第一分析模块221和第二分析模块222，其中第一分析模块221配置用于根据从识别服务器210获取的与广播节目相关的识别结果，确定广播节目的节目开始时间；以及第二分析模块222配置用于根据从识别服务器210获取的与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目结束时间。

具体地，参照图1所示，节目分析服务器220首先通过第一分析模块221，从识别服务器210获取与广播节目相关的识别结果，并根据该识别结果，从多个候选节目开始时间中确定广播节目的节目开始时间。然后再通过第二分析模块222，根据从识别服务器210获取的与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目结束时间。例如但不限于为，第二分析模块222根据与下一个广播节目相关的识别结果，将下一个广播节目的节目开始时间的前一时刻确定为该广播节目的节目结束时间。通过这种方式，可以准确的确定广播节目的节目开始时间和节目结束时间。

可选地，根据从识别服务器210获取的与广播节目相关的识别结果，确定广播节目的节目开始时间的操作，包括：根据与广播节目相关的识别结果，分析多个候选节目片头的相似度是否大于预设的相似度阈值；在多个候选节目片头的相似度大于相似度阈值的情况下，将与相似度最高的候选节目片头对应的候选节目开始时间确定为节目开始时间；以及在多个候选节目开始时间的相似度不大于相似度阈值的情况下，获取与广播节目相关的节目单信息，并根据节目单信息确定节目开始时间。

具体地，在本实施中，为了保障所确定的节目开始时间具有一定的准确性，会预先设置一个合理的相似度阈值，以便将与所确定的第二音频信息相差较大的候选节目片头筛选出去。在这种情况下，节目分析服务器220首先根据与广播节目相关的识别结果，逐一分析每一个候选节目片头的相似度是否大于预设的相似度阈值。并且，在具有相似度大于预设的相似度阈值的候选节目片头的情况下，将与相似度最高的候选节目片头对应的候选节目开始时间确定为节目开始时间。通过这种方式，保障了所确定的节目开始时间的准确性。

进一步地，在确定多个候选节目片头的相似度均不大于相似度阈值的情况下，意味着多个候选节目片头均与所确定的第二音频信息相差较大，证明识别服务器210识别出的多个候选节目开始时间存在较大的误差。在这种情况下，节目分析服务器220不再基于识别服务器210识别出的结果来确定节目开始时间，而是获取与广播节目相关的节目单信息，并根据节目单信息确定节目开始时间。通过这种方式，能够最大程度的降低了所确定的节目开始时间的误差性。

可选地，根据从录制服务器10接收的多个音频碎片信息，确定分别与多个候选节目片头对应的并且时间长度大于节目片头的多个第二音频信息的操作，包括：确定在每一候选节目片头的开始时间之前的第一时刻以及在候选节目片头的结束时间之后的第二时刻；从多个音频碎片信息中获取第一时刻和第二时刻之间的多个第二音频碎片信息，确定第二音频碎片信息集合；以及对第二音频碎片信息集合中的与同一个候选节目片头相关的第二音频碎片信息进行合并，得到多个第二音频信息。

具体地，可以先通过识别服务器210确定在每一候选节目片头的开始时间之前的第一时刻以及在候选节目片头的结束时间之后的第二时刻，并从多个音频碎片信息中获取第一时刻和第二时刻之间的多个第二音频碎片信息，确定第二音频碎片信息集合。其中，由于广播节目一般会存在一定的延时性，例如由于播音员说话语速或者临时插播广告等问题，容易导致广播节目的节目开始时间和节目结束时间和预告中的不一致。为了保障获取到的多个第二音频碎片信息(即，预定时间段内的音频碎片信息)包含第一音频信息在内，假设广播节目的开始时间大约为上午8点整，那么可以确定第一时刻为7点55分，第二时刻为到8点05分。其中，关于第一时刻以及第二时刻的选取可以由用户自定义，在本实施例中，第一时刻为节目开始时间之前的五分钟，第二时刻为节目开始时间之后的五分钟，当然也可以为其他的时刻，可以根据实际的场景需求进行不同的定义。通过这种方式，不仅保障了获取到的多个第二音频碎片信息包含第一音频信息在内，还有效的减轻了计算设备20的计算量。

进一步地，由于保存的音频碎片信息皆为时间较短的音频(例如，皆为1分钟的音频)，这会对后期计算造成比较大的困扰，因此通过识别服务器210对第二音频碎片信息集合中的与同一个候选节目片头相关的第二音频碎片信息进行合并成一段包括第一音频信息在内的较长音频信息(即，第二音频信息)，从而得到多个第二音频信息，使得后期音频信息的特征计算更加方便。

具体地，可以利用预先设置的特征提取算法(例如可以但不限于是MFCC特征提取算法)提取第一音频信息的第一特征和每一个第二音频信息的第二特征，得到第一音频信息的第一特征和多个第二音频信息的多个第二特征。然后，分别将第一特征与多个第二特征进行匹配，确定多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息。例如通过匹配操作，确定第一特征在每一个第二特征中的位置，确定第一音频信息在每一个第二音频信息的时间位置，从而确定出多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息。

可选地，还包括听听FM管理平台40，听听FM管理平台40配置用于上传以下的至少一项信息：与广播节目的节目片头对应的第一音频信息、与广播节目相关的节目单信息以及与广播节目对应的节目音频。

具体地，参照图1所示，广播节目智能碎片化的系统还包括听听FM管理平台40，与计算设备20通信连接。使得相关的工作人员可以向听听FM管理平台40上传与广播节目的节目片头对应的第一音频信息，使得计算设备20能够从听听FM管理平台40获取第一音频信息。同样的，相关的工作人员还可以上传与广播节目相关的节目单信息。其中，节目单信息中包含预估的节目开始时间和节目结束时间。此外，参照图1所示，在音频处理服务器40处理得到与广播节目对应的节目音频后，可以通过计算设备20中的节目分析服务器220，将节目音频回传至听听FM管理平台40。

此外，计算设备20从听听FM管理平台40中获取第一音频信息，具体为扫描目标oss目录，获取广播节目的片头数据，对片头数据进行解析，生成与广播节目的节目片头对应的第一音频信息。其中，一开始从听听FM管理平台40获取的片头数据是JSON格式的片头数据，因此计算设备20需要对JSON格式的片头数据进行解析，生成第一音频信息。并且，计算设备20还可以将生成的第一音频信息存储至预设的片头数据库中。其中，一开始从听听FM管理平台40获取的JSON格式的片头数据例如但不限于包含广播节目的大致开始时间、节目id、广播节目的大致结束时间、台别id以及节目名称等。

可选地，还包括客户端50，客户端50与听听FM管理平台40通信连接，配置用于从听听FM管理平台40读取与广播节目对应的节目音频。

具体地，参照图1所示，广播节目智能碎片化的系统还包括客户端50，与听听FM管理平台40通信连接。在音频处理服务器40处理得到与广播节目对应的节目音频后，可以通过计算设备20中的节目分析服务器220，将节目音频回传至听听FM管理平台40。因此，在用户需要观看节目音频时，可以通过客户端50向听听FM管理平台40请求获取相应的节目音频。通过这种方式，便于用户根据需求对该节目音频进行回听操作。

可选地，录制服务器10包括转码模块110和第一存储模块120，其中转码模块110配置用于对音频直播数据进行转码操作；以及第一存储模块120配置用于从转码模块110接收转码后的音频直播数据，并存储转码后的音频直播数据。

具体地，参照图1所示，录制服务器10包括转码模块110和第一存储模块120。其中，录制服务器10在获取到音频直播数据之后，可以通过转码模块110对音频直播数据进行相应的转码操作，然后通过第一存储模块120存储转码后的音频直播数据。通过这种方式，能够适应不同的网络带宽、不同的终端处理能力和不同的用户需求。

可选地，识别服务器210包括匹配模块211和第二存储模块212，其中匹配模块211配置用于将多个音频碎片信息与预设的多个节目台进行匹配；以及第二存储模块212配置用于根据从匹配模块211接收的匹配结果，将多个音频碎片信息分别存储至音频碎片数据库中的与各自匹配的节目台对应的文件。

具体地，参照图1所示，识别服务器210还包括匹配模块211和第二存储模块212。其中，识别服务器210还需要对多个音频碎片信息进行分析，因此可以通过匹配模块211根据音频目录和名称，将各个音频碎片信息的音频开始时间、结束时间(比如20190101 19:00:01 01000到20190101 19:00:02 01000(精确到毫秒)以及台别(这里的台别为数字，类似01 2的形式)与具体的节目台(例如交通台、新闻台等)进行匹配。然后通过第二存储模块212将需要用的音频碎片信息转换为pcm音频源文件，分别存储至音频碎片数据库中与各自匹配的节目台对应的文件。

此外，识别服务器210可以通过声卡设备读取广播音频流信息，然后将广播音频流信息进行缓存。在判定缓存中存在音频碎片信息的情况下，对音频碎片信息进行转码操作，并将转码后的音频碎片信息写入缓存文件中。一般来说，所生成的音频碎片的时长为1分钟，因此还需要判断该音频碎片信息的时长是否为1分钟，并在判断的结果为是的情况下，将该音频碎片信息写入音频文件头以及文件尾，从而保证该音频文件能够正常被播放器播放。

可选地，根据从识别服务器210接收的与广播节目的下一个广播节目相关的识别结果，确定广播节目的节目结束时间的操作，包括：根据与广播节目的下一个广播节目相关的识别结果，确定下一个广播节目的开始时间；以及将下一个广播节目的开始时间的前一时刻确定为广播节目的节目结束时间。

具体地，参照上述的广播节目的节目开始时间的确定方法，能够确定广播节目播放结束之后的下一个广播节目的开始时间，然后把下一个节目的开始时间的前一时刻确定为该广播节目的节目结束时间。通过这种方式，可以在非人工环境下准确的确定广播节目的节目结束时间。

此外，对第一音频信息进行特征提取，确定第一特征的操作，包括：将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合；确定与第一音频帧集合对应的第一特征单元集合，其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元，并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布；以及将第一特征单元集合的多个特征单元组合成第一特征。

具体地，参考图2所示，对第一音频信息进行特征提取，确定第一特征，例如可以首先将第一音频信息分割成由第一数量的多个音频帧构成的第一音频帧集合。例如可以通过预先设置的分帧算法，对第一音频信息进行分帧操作，其中例如第一音频信息的时间长度为1分钟，如果将第一音频信息分割成21.333毫秒的多个音频帧，第一数量可以为(60*60)/21.333的整数部分。然后确定与第一音频帧集合对应的第一特征单元集合，其中第一特征单元集合包括分别与第一音频帧集合的多个音频帧对应的多个特征单元，并且其中第一特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布。其中频谱能量分布可以是有多个比特位构成的。最后将第一特征单元集合的多个特征单元组合成第一特征。从而可以提取出第一音频信息的第一特征，进而便于节目开始时间的匹配。

此外，在对第一音频信息进行分帧操作之前，首先对可以对第一音频信息进行预加重处理。其中人在发声的过程中，由于是唇端在发声，因此会造成高频信号比中频信号和低频信号弱，从而通过预加重是为了突出第一音频信息中的高频部分的能量信息。

可选地，确定与第一音频帧集合对应的第一特征单元集合的操作，包括：根据第一音频帧集合，利用预先设置的加窗算法确定第二音频帧集合，其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧；根据第二音频帧集合，确定第一频域信息集合，其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息；以及根据第一频域信息集合，确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元，作为第一特征单元集合。

具体地，参考图2所示，确定与第一音频帧集合对应的第一特征单元集合的操作，例如首先可以根据第一音频帧集合，利用预先设置的加窗算法确定第二音频帧集合，其中第二音频帧集合的音频帧为与第一音频帧集合的音频帧对应的具有周期性连续信号的音频帧。其中特征提取算法的下一步是快速傅里叶变换，而快速傅里叶变换要求信号具有周期性。分帧得到的音频帧信号首尾不连续，所以通过加窗算法例如汉明窗(汉明窗可以使窗边界处信号平滑衰减)使信号首尾连续，所以通过加窗算法处理后的音频帧可以被视作一个具有周期性的音频帧信号。其中加窗算法的公式如下：

W[n]＝0.54-0.46cos(2πn/M)

其中M是帧的长度，n为自然数。

进一步地，例如可以通过傅里叶变换，根据第二音频帧集合，确定第一频域信息集合，其中第一频域信息集合包括与第二音频帧集合的多个音频帧分别对应的多个频域信息。从而可以在频域信息上对第一音频信息进行特征提取。

其中傅里叶变换的公式如下：

进一步地，根据第一频域信息集合，确定分别与第一音频帧集合的多个音频帧对应的多个由比特位构成的特征单元，作为第一特征单元集合。例如可以通过对频域信息进行Mel滤波操作，得到能量信息，进一步通过能量信息得到能量的分布(例如：3425793845......，其中每个数值对应一个能量值)。其中Mel滤波公式如下：

M(f)＝1125ln(1+f/700)

M^-1(m)＝70O(exp(m/1125)-1)

其中f以及m均为频率。

其中当能量上升的情况下我们记作0(例如上边所示3425793845......中的34，从3升到4即为上升)，当能量下降的情况下记作1(例如上边所示的42，从4下降到2即为下降)。从而根据能量分布情况，得到由多个比特位构成的特征单元，并且由特征单元构成第一特征集合，进而更加便于后期的特征匹配过程。

可选地，对多个第二音频信息进行特征提取，确定多个第二特征的操作，包括：将每一个第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合；确定与第三音频帧集合对应的第二特征单元集合，其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元，其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布；以及将第二特征单元集合的多个特征单元组合成第二特征，重复上述操作，得到分别与多个第二音频信息对应的多个第二特征。

具体地，参考图3所示，对每一个第二音频信息进行特征提取，确定第二特征，例如可以首先将每一个第二音频信息分割成由第二数量的多个音频帧构成的第三音频帧集合。例如可以通过预先设置的分帧算法，对每一个第二音频信息进行分帧操作，其中例如每一个第二音频信息的时间长度为10分钟，如果将每一个第二音频信息分割成21.333毫秒的多个音频帧，第二数量可以为(10*60*60)/21.333的整数部分。并且其中每一个第二音频信息的时长大于第一音频信息的时长，因此第二数量大于第一数量。然后确定与第三音频帧集合对应的第二特征单元集合，其中第二特征单元集合包括分别与第三音频帧集合的多个音频帧对应的多个特征单元，并且其中第二特征单元集合的特征单元用于指示对应的音频帧的频谱能量分布。其中频谱能量分布可以是有多个比特位构成的。最后将第二特征单元集合的多个特征单元组合成第二特征。从而可以提取出每一个第二音频信息的第二特征，进而便于节目开始时间的匹配。

可选地，确定与第三音频帧集合对应的第二特征单元集合的操作，包括：根据第三音频帧集合，利用预先设置的加窗算法确定第四音频帧集合，其中第四音频帧集合的音频帧为与第三音频帧集合的音频帧对应的具有周期性连续信号的音频帧；根据第四音频帧集合，确定第二频域信息集合，其中第二频域信息集合包括与第四音频帧集合的多个音频帧分别对应的多个频域信息；以及根据第二频域信息集合，确定分别与第二音频帧集合的多个音频帧对应的多个由比特位构成的特征单元，作为第二特征单元集合。

具体地，参考图3所示，对每一个第二音频信息进行特征提取，确定第二特征集合的操作参考上面所述的对第一音频信息进行特征提取确定第一特征集合的过程，这里就不再一一赘述。从而得到由多个比特位构成的特征单元，来构成第二特征集合，进而更加便于后期的特征匹配过程。

可选地，分别将第一特征与多个第二特征进行匹配，确定多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息的操作，包括：基于构成第二特征单元集合的特征单元，从第二特征中提取多个特征片段，其中特征片段分别包括第一数量的多个特征单元；以及分别计算第一特征与多个特征片段的相似度，并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在每一个第二音频信息中的时间位置，确定多个候选节目开始时间以及分别与多个候选节目片头对应的多个相似度信息。

具体地，参考图4所示，对第一特征集合和第二特征集合进行匹配，确定节目片头的开始时间在每一个第二音频信息中的时间位置的操作，例如可以首先基于构成第二特征单元集合的特征单元，从第二特征中提取多个特征片段，其中特征片段分别包括第一数量的多个特征单元。其中例如第一音频帧集合中包含n个音频帧并且第二音频帧集合中包括N个音频帧，从而第一特征中包括n个特征单元而第二特征中包括N个特征单元，那么就可以从第二特征中截取(N-n+1)片段和第一特征作匹配。然后分别计算第一特征与多个特征片段的相似度，并且根据相似度最高的特征片段的起始特征单元所对应的音频帧在每一个第二音频信息中的时间位置，确定节目片头的开始时间在每一个第二音频信息中的时间位置。其中每个特征单元可以但不限于由32个比特位构成(例如：11100001110101010000001111000111)。参见图4所示，假设n＝3，即第一特征包括3个特征单元，然后例如在第一次匹配的过程中第一个单元匹配上的比特位的个数为20个、第二个单元匹配上的比特位个数为5个以及第三个单元匹配上的比特位的个数为10个，那么第一次匹配的相似度为(20+5+10)/(32*3)。以此类推，可以分别计算出所有的匹配过程的相似度(例如第一音频信息包含n＝3个单元，每一个第二音频信息包含N＝14个单元，那么可以匹配N-n+1次，即12次)。因此可以计算出12个相似度，然后从12个相似度中寻找出最大的相似度，就可以确定第一音频信息在每一个第二音频信息中的时间位置，即节目片头的开始时间在每一个第二音频信息中的频域位置。参考图4所示，假设第二次匹配时相似度最高，则第二次匹配时的特征片段的起始特征单元为特征单元2；假设第(N-n+1)次匹配时相似度最高，则第二次匹配时的特征片段的起始特征单元为特征单元(N-n+1)，在图4中例如为特征单元11。

然后参考图3所示，在第二音频信息中，根据相似度最大的特征片段的起始特征单元所对应的音频帧之前的音频帧的个数计算节目片头的开始时间在每一个第二音频信息中的时间位置。例如当在第二音频信号的第12个帧的位置相似度最高，那么在相似度最高的频域位置之前存在11个第二帧，通过帧的时间长度就可以计算出节目片头在每一个第二音频信息中的时间位置。从而通过以上所述的匹配方法，可以在每一个第二音频信息中找到片头节目的开始位置。进而确定出多个候选节目开始时间和相应的相似度信息。

可选地，基于构成第二特征单元集合的特征单元，从第二特征中提取多个特征片段的操作，包括：以第一数量个特征单元作为特征提取窗口的窗口范围，从第二特征的起始特征单元开始，提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段；以及依次将特征提取窗口平移一个特征单元，并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。

具体地，参考图4所示，基于构成第二特征单元集合的特征单元，从第二特征中提取多个特征片段的操作，例如首先可以以第一数量个特征单元作为特征提取窗口的窗口范围，从第二特征的起始特征单元开始，提取特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。例如图4中所示的在第一特征的长度n＝3并且第二特征的长度N＝14的情况下，那么特征提取窗口的长度即为3(3是指特征单元的数量)。然后参考图4所示，依次将特征提取窗口平移一个特征单元，并提取平移后的特征提取窗口的窗口范围内的多个特征单元以便构成特征片段。从而通过这种方式从第二特征中提取出多个特征片段并依次与第一特征进行匹配，进而完成第一特征与第二特征的匹配。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种广播节目智能碎片化的系统，其特征在于，包括：录制服务器(10)、计算设备(20)以及音频处理服务器(30)，其中

所述录制服务器(10)配置用于录制与广播节目相关的音频直播数据，对录制得到的所述音频直播数据进行碎片化处理，生成包括所述广播节目的节目音频在内的多个音频碎片信息，并将所述多个音频碎片信息发送至所述计算设备(20)以及所述音频处理服务器(30)；

所述计算设备(20)配置用于接收所述录制服务器(10)发送的所述多个音频碎片信息，根据与所述广播节目的节目片头对应的第一音频信息和所述多个音频碎片信息，计算所述广播节目的节目开始时间和节目结束时间，并将所述节目开始时间和所述节目结束时间发送至所述音频处理服务器(30)；以及

所述音频处理服务器(30)配置用于从所述录制服务器(10)接收所述多个音频碎片信息以及接收所述计算设备(20)发送的所述节目开始时间和所述节目结束时间，从所述多个音频碎片信息中确定与从所述节目开始时间至所述节目结束时间的时间段相关的多个第一音频碎片信息，并对所述多个第一音频碎片信息进行合并和/或剪切，得到与所述广播节目对应的节目音频；

所述广播节目的节目片头包含多个候选节目片头，并且所述计算设备(20)包括识别服务器(210)以及与所述识别服务器(210)通信连接的节目分析服务器(220)，其中

所述识别服务器(210)配置用于根据从所述录制服务器(10)接收的所述多个音频碎片信息，确定分别与所述多个候选节目片头对应的并且时间长度大于所述候选节目片头的多个第二音频信息，并根据所述第一音频信息和所述多个第二音频信息，生成与所述广播节目相关的识别结果，其中所述识别结果包括所述广播节目的多个候选节目开始时间以及分别与所述多个候选节目片头对应的多个相似度信息，其中所述相似度信息用于指示所述候选节目片头与对应的第二音频信息之间的相似度；以及

所述节目分析服务器(220)配置用于根据从所述识别服务器(210)获取的与所述广播节目相关的识别结果以及与所述广播节目的下一个广播节目相关的识别结果，确定所述广播节目的所述节目开始时间和所述节目结束时间，并将所述节目开始时间和所述节目结束时间发送至所述音频处理服务器(30)；

所述节目分析服务器(220)包括第一分析模块(221)和第二分析模块(222)，其中

所述第一分析模块(221)配置用于根据从所述识别服务器(210)获取的与所述广播节目相关的识别结果，确定所述广播节目的所述节目开始时间；以及

所述第二分析模块(222)配置用于根据从所述识别服务器(210)获取的与所述广播节目的下一个广播节目相关的识别结果，确定所述广播节目的所述节目结束时间；

根据从所述识别服务器(210)获取的与所述广播节目相关的识别结果，确定所述广播节目的所述节目开始时间的操作，包括：

根据与所述广播节目相关的识别结果，分析所述多个候选节目片头的相似度是否大于预设的相似度阈值；

在所述多个候选节目片头的相似度大于所述相似度阈值的情况下，将与相似度最高的候选节目片头对应的候选节目开始时间确定为所述节目开始时间；以及

在所述多个候选节目片头的相似度不大于所述相似度阈值的情况下，获取与所述广播节目相关的节目单信息，并根据所述节目单信息确定所述节目开始时间；

根据从所述录制服务器(10)接收的所述多个音频碎片信息，确定分别与所述多个候选节目片头对应的并且时间长度大于所述候选节目片头的多个第二音频信息的操作，包括：

确定在每一所述候选节目片头的开始时间之前的第一时刻以及在所述候选节目片头的结束时间之后的第二时刻；

从所述多个音频碎片信息中获取所述第一时刻和所述第二时刻之间的多个第二音频碎片信息，确定第二音频碎片信息集合；以及

对所述第二音频碎片信息集合中的与同一个候选节目片头相关的第二音频碎片信息进行合并，得到所述多个第二音频信息；

根据所述第一音频信息和所述多个第二音频信息，生成与所述广播节目相关的识别结果的操作，包括：

对所述第一音频信息和所述多个第二音频信息进行特征提取，确定所述第一音频信息的第一特征和所述多个第二音频信息的多个第二特征；以及

分别将所述第一特征与所述多个第二特征进行匹配，确定所述多个候选节目开始时间以及分别与所述多个候选节目片头对应的所述多个相似度信息。

2.根据权利要求1所述的系统，其特征在于，还包括听听FM管理平台(40)，所述听听FM管理平台(40)配置用于上传以下所述的至少一项信息：与所述广播节目的节目片头对应的所述第一音频信息、与所述广播节目相关的节目单信息以及与所述广播节目对应的节目音频。

3.根据权利要求2所述的系统，其特征在于，还包括客户端(50)，所述客户端(50)与所述听听FM管理平台(40)通信连接，配置用于从所述听听FM管理平台(40)读取与所述广播节目对应的所述节目音频。

4.根据权利要求1所述的系统，其特征在于，所述录制服务器(10)包括转码模块(110)和第一存储模块(120)，其中

所述转码模块(110)配置用于对所述音频直播数据进行转码操作；以及

所述第一存储模块(120)配置用于从所述转码模块(110)接收转码后的所述音频直播数据，并存储转码后的所述音频直播数据。

5.根据权利要求1所述的系统，其特征在于，所述识别服务器(210)包括匹配模块(211)和第二存储模块(212)，其中

所述匹配模块(211)配置用于将所述多个音频碎片信息与预设的多个节目台进行匹配；以及

所述第二存储模块(212)配置用于根据从所述匹配模块(211)接收的匹配结果，将所述多个音频碎片信息分别存储至音频碎片数据库中的与各自匹配的节目台对应的文件。