CN105611400B

CN105611400B - 内容处理设备和用于发送可变大小的片段的方法

Info

Publication number: CN105611400B
Application number: CN201510790584.1A
Authority: CN
Inventors: 陈张浩; 柳映准; 宋明石
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-11-18
Filing date: 2015-11-17
Publication date: 2020-11-06
Anticipated expiration: 2035-11-17
Also published as: US20160140224A1; WO2016080660A1; KR102255152B1; RU2017117667A; EP3023892A1; KR20160059131A; CN105611400A; US9910919B2; BR112017009445A2

Abstract

提供了一种内容处理设备。所述内容处理设备包括：接收机，被配置为接收内容；音频处理器，被配置为通过对内容中所包括的音频数据进行解码来提取音频信号；处理器，被配置为基于音频信号的音乐信息的比率确定音频信号中的特征部分，以及在音频信号中检测与特征部分相对应的片段；以及通信器，被配置为向音乐识别服务器发送所述片段，其中所述片段的大小在阈值范围内可变地确定。

Description

内容处理设备和用于发送可变大小的片段的方法

相关申请的交叉引用

本申请要求于2014年11月18日向韩国知识产权局提交的韩国专利申请No.10-2014-0160581的优先权，其中该申请的公开通过引用全文合并于此。

技术领域

根据本公开的装置和方法涉及一种内容处理设备和一种用于发送其片段的方法，更具体地，涉及一种在内容所包括的音频信号中生成可变大小的片段用以识别音乐并发送该片段的内容处理设备以及一种用于发送其片段的方法。

背景技术

可以将多媒体内容分为视频流和音频流。可以将音频流认为是组合了音乐、话音和其他分量的音频数据。

为了搜索音频流中所包括的音乐信息，音乐搜索设备向识别服务器发送音频数据，识别服务器分析音频的频率特征并寻找该音乐信息。搜索到的音乐信息可以被发送到音乐搜索设备并被提供给用户。通常，可以将内容流认为是混合了音乐、话音和其他噪声分量的音频数据。可以根据用户选择确定要搜索的音乐部分(section)或由设备划分部分。具体地，在早期方法中，用户通过在重放音乐期间操控设备，来确定部分的起点和终点。然而，该方法存在如下问题：如果用户选择精确的部分，则用户难以搜索用户所需的部分。此外，如果用户选择的部分较长，则可能生成与音频数据差不多的网络流量。

在后来的方法中，设备监控器实时监控音频流，分析特征，从所述音频流中分离音乐部分，然后将该部分的音频数据发送给服务器。在这种情况下，识别性能可能受到该音频部分的特征的影响。

识别结果的准确性和消耗的系统资源量以及网路流量取决于如何划分音频部分。

也就是说，要发送给服务器的音频部分数据的大小确定网络流量的量。因此，如果在由客户端设备划分音乐部分之后将音频部分数据发送到服务器，数据成本由于过多的流量而增加，并消耗诸如CPU或设备电池之类的资源。

发明内容

本公开的示例性实施例克服以上缺点和以上未描述的其它缺点。此外，本公开不是必须克服上述缺点，且本公开的示例实施例可以不克服任何上述问题。

本公开提供了一种内容处理设备、一种用于发送其片段的方法以及一种记录在记录介质上的计算机程序，其中该内容处理设备在内容所包括的音频数据中生成可变大小的片段用以识别音乐，并发送该片段。

根据本公开的一个方面，一种内容处理设备包括：接收机，被配置为接收内容；音频处理器，被配置为通过对内容中所包括的音频数据进行解码来提取音频信号；处理器，被配置为基于音频信号的音乐信息的比率，确定音频信号中的特征部分，并在音频信号中检测与特征部分相对应的片段；以及通信器，被配置为向音乐识别服务器发送所述片段，其中所述片段的大小在阈值范围内可变地确定。

处理器可以被配置为计算音频信号中的音乐的比率，将音频信号中的音乐信息的比率大于或等于阈值的至少一个音频部分确定为特征部分，并通过用起点和终点标记特征部分来生成所述片段。

处理器可以配置为响应于片段的大小小于阈值范围，将该片段与相邻片段合并；以及响应于该片段的大小超过阈值范围，将该片段划分为多片。

响应于检测到多个片段，处理器可以被配置为将所述多个片段中的一些片段分成一组，控制通信器在不同阶段(顺序)向音乐识别服务器发送分组后的片段。

在向音乐识别服务器发送一个片段组之后，响应于通过通信器从音乐识别服务器接收到音乐识别失败信号，处理器可以被配置为向音乐识别服务器发送所述多个片段组中的所述一个片段组之后的片段组，且响应于从音乐识别服务器接收到音乐识别完成信号，不发送随后的片段组。

内容处理设备还可以包括：存储设备，被配置为响应于由音乐识别服务器根据所述片段识别到音乐信息，存储该音乐信息；以及显示器，被配置为显示该音乐信息。

响应于检测到多个片段，处理器可以被配置为：按照音乐信息在音频数据中的比率的顺序，向多个片段分配优先级，并根据优先级依次向音乐识别服务器发送所述多个片段。

处理器可以配置为响应于多个片段达到预定数目，向多个片段分配优先级。

通过下式来计算音频信号中的音乐的比率：

音频信号中的音乐的比率＝音乐分(music score)/(噪声分(noise score)+话音分(speech score)+其他分(other scores))

根据本公开的另一方面，一种用于发送内容处理设备的片段的方法包括：接收内容；通过对内容中所包括的音频数据进行解码来提取音频信号；基于音频信号的音乐信息的比率(ratio)，确定在音频信号中的特征部分，并在音频信号中检测与特征部分相对应的片段；以及向音乐识别服务器发送该片段，其中所述片段的大小在阈值范围内可变地确定。

生成片段可以包括：计算音频信号中的音乐的比率，将音频信号中的音乐的比率大于或等于阈值的至少一个音频部分确定为特征部分，并通过用起点和终点标记特征部分来生成片段。

所述方法还可以配置为：响应于片段的大小小于阈值，将该片段与相邻片段合并；以及响应于该片段的大小超过阈值范围，将该片段划分为多片。

向音乐识别服务器发送片段可以包括：响应于检测到多个片段，将所述多个片段中的一些片段分成一组，并在不同阶段(顺序)向音乐识别服务器发送分组后的片段。

向音乐识别服务器发送片段可以包括：在向音乐识别服务器发送一个片段组之后，响应于从音乐识别服务器接收到音乐识别失败信号，向音乐识别服务器发送所述多个片段组中的所述一个片段组之后的片段组，且响应于从音乐识别服务器接收到音乐识别完成信号，不发送所述多个片段组中的所述一个片段组之后的片段组。

所述方法还可以包括：响应于由从音乐识别服务器发送的所述片段识别了音乐信息，存储该音乐信息；并显示该音乐信息。

所述方法还可以包括：响应于检测到多个片段，按照音乐信息在音频数据中的比率，向多个片段分配优先级，所述发送包括根据优先级依次向音乐识别服务器发送所述多个片段。

分配优先级可以包括：响应于多个片段达到预定数目，向检测到的片段分配优先级。

通过下式来计算音频信号中的音乐的比率：

音频信号中的音乐的比率＝音乐分/(噪声分+话音分+其他分)

根据本公开的另一方面，一种内容处理方法包括：生成音频信号的至少一个片段，其中所述至少一个片段在一定范围内具有可变大小；将所生成的至少一个片段确定为具有相对于音频信号的其余内容的音乐信息的比率的特征；以及发送在一定范围内具有可变大小的至少一个片段，以便执行音乐识别。

本公开的其它方面和/或优点部分地将在以下描述中阐述，且部分地将通过以下描述而变得清楚明白，或者可以通过本公开的实践来获矢。

附图说明

通过参考附图描述本公开的一些示例实施例，将更清楚上述和/或其他方面，附图中：

图1是示出了根据示例实施例的音乐识别系统的视图；

图2是示出了根据示例实施例的内容处理设备的配置的框图；

图3是示出了根据示例实施例的内容处理设备的软件配置的视图；

图4是示出了根据示例实施例的用于生成音频数据的片段的方法的视图；

图5是示出了根据示例实施例的片段的配置的视图；

图6是示出了根据示例实施例的用于向多个片段分配优先级的方法的视图；

图7A和7B是示出了根据示例实施例的用于组合和划分片段的方法视图；

图8是示出了根据示例实施例的用于对多个片段进行分组和重新排列的方法的视图；

图9和10是示出了根据示例实施例的用于向多个片段分配优先级的方法的视图；

图11是示出了根据示例实施例的用于以预定间隔划分片段的方法的视图；

图12是根据示例实施例的将TV示出为内容处理设备的示例的框图；

图13A、13B、13C、13D和13E是示出了根据示例实施例的内容处理设备的音乐信息显示屏幕的视图；

图14是示出了与内容处理设备相连并显示音乐信息的外部设备的视图；以及

图15是解释根据示例实施例的内容处理方法的流程图。

具体实施方式

下文中，将参考附图描述示例实施例，其中贯穿附图，相似的附图标记表示相似的元件。下文参考附图描述了多个实施例以便解释本发明。

图1是示出了根据示例实施例的音乐识别系统。参考图1，音乐识别系统10包括内容处理设备100和音乐识别服务器200。

当再现内容时，用户可能需要当前再现的音乐的音乐信息。这里所述的音乐信息可以包括音乐的标题、专辑标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期和其他音乐信息。

为了向用户提供音乐信息，内容处理设备100确定当前再现的内容的音频信号中的特征部分，生成包括该特征部分的片段，并向音乐识别服务器200发送该片段。在这种情况下，内容处理设备100可以通过诸如互联网、有线或卫星之类的网络来与音乐识别服务器200进行通信。

内容处理设备100表示能够通过网络、广播或麦克风来收集/再现音频流的设备，诸如TV、无线电、移动电话、计算机或MP3播放器。以下将参考图2详细描述内容处理设备100的具体配置和操作。

响应于接收到该片段，音乐识别服务器200分析该片段的音频的频率特征并寻找音乐信息。响应于发现了与该片段相匹配的音乐，音乐识别服务器200向内容处理设备100发送该音乐信息。

音乐识别服务器200可以是用于向用户提供音乐识别服务的服务器。

响应于从音乐识别服务器200接收到该音乐信息，内容处理设备100可以通过显示器向用户提供该信息。

图2是示出了根据示例实施例的内容处理设备的配置的框图。

参考图2，内容处理设备100包括接收机110、音频处理器120、处理器130和通信器140。

接收机110从内容供应者接收内容。内容可以是音频数据或可以包括音频数据和视频数据二者。内容供应者可以是公共TV广播站、有线广播站、IPTV广播站、Vod系统等。然而，不应将其认为是限制性的，内容供应者还可以包括用于提供包括音频数据的内容的服务器或系统。

音频处理器120对包括在广播内容中的音频数据进行解码并提取音频信号。此外，音频处理器120可以再现解码后的音频信号并通过扬声器(未示出)输出该音频信号。

处理器130是负责控制设备的元件，可以与中央处理设备、微处理器、控制器等可互换地使用。处理器130配置为控制设备的整体操作并与音频处理器120、通信器140、或其他功能组件相结合，以便实现为片上系统(SoC)。具体地，处理器130基于SNR确定音频信号中的特征部分，并检测包括该特征部分的片段。更具体地，处理器130接收由音频处理器120提取的音频信号并将该音频信号以音频数据(PCM)的形式进行存储，通过基于SNR分析音频数据来确定音频信号中的特征部分，并检测包括该特征部分的片段。

在这种情况下，片段的大小可以在预定阈值范围内改变。这里所述的SNR表示音频信号中音乐占据的比率，以下参考图4来描述其具体计算方法。

此外，处理器130可以计算音频信号的SNR，将SNR大于或等于预定阈值的至少一个音频部分确定为特征部分，并通过用起点和终点标记该特征部分，来生成该片段。

具体地，处理器130可以接收由音频处理器提取的音频信号并将该音频信号以音频数据(PCM)的形式进行存储，通过基于SNR分析音频数据来将音频信号的SNR大于或等于预定阈值的部分确定为特征部分，并检测与该部分相对应的音频数据的片段。

此外，由于处理器130通过用起点和终点标记特征部分来生成片段，处理器130可以使用关于起点和终点的信息来测量片段的大小。

此外，当片段的大小小于阈值范围时，处理器130可以将该片段和相邻片段合并，以及当片段的大小超过阈值范围时，处理器130可以将该片段划分为多片。

具体地，处理器130可以使用针对该片段所标记的起点和终点来测量该片段的大小，并可以将测量到的片段的大小与阈值范围进行比较。当片段的大小小于阈值范围时，处理器130可以将该片段与相邻片段合并，使得片段的大小落入阈值范围内，且当片段的大小超过阈值范围时，处理器130可以将该片段划分为多片，使得该片段的大小落入阈值范围内。

这里所述的阈值范围是从最小阈值到最大阈值(包括在内)。最小阈值是指可以由音乐识别服务器识别的片段的最小大小，最大阈值是指可以防止浪费网络流量和资源的片段的有限大小。下文将参考图7A和7B详细描述用于组合并划分片段的方法。

当生成了多个片段时，处理器130可以按照SNR的顺序向多个片段分配优先级，并经由通信器140根据优先级来向音乐识别服务器依次发送所述多个片段。

具体地，处理器130可以生成多个片段，其中的每一个具有用置信分标记的特征部分，使用置信分来计算多个片段中的每个片段的SNR，按照SNR的顺序重新排列所述多个片段，并通过通信器140向音乐识别服务器发送所述多个片段。

这里所述的置信分是指音乐、噪声、话音和其他信号中的每一个的大小，其中将所述大小计算为音乐、噪声、话音和其他信号中的每一个的分数。也就是说，置信分可以确定输入音频信号中的特征矢量，诸如，梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)、过零、斜度(pitch)等，将这些特征矢量分配给概率模型，诸如，高斯混合模型(GMM)、隐马尔可夫模型(HMM)等，并计算音乐、噪声、话音和其他信号中的每一个的概率值。

此外，可以使用置信分经由下式计算多个片段中的每一个片段的SNR：

SNR＝音乐分/(噪声分+话音分+其他分)

当音频中包括音乐和声音信号时，声音信号被归类为话音并被用作计算SNR。

在这种情况下，当生成了预定数目的片段时，处理器130可以向所生成的片段分配优先级。

具体地，当连续再现音乐时，可以连续生成多个片段。在这种情况下，当甚至在完成对音乐的再现之前生成了预定数目的片段时，处理器130可以仅向所生成的片段分配优先级。

例如，在连续生成音乐期间可以生成总共30个片段。在这种情况下，当生成了预定数目的片段(10个片段)时，处理器130可以按照SNR的顺序向这10个片段分配优先级，重新排列这些片段，并向音乐识别服务器发送这些片段。

处理器130控制通信器140向音乐识别服务器发送这些片段。具体地，响应于处理器130基于SNR确定了音频信号中的特征部分并检测到包括该特征部分的片段，处理器130可以通过通信器140向音乐识别服务器发送该片段。

此外，当生成了多个片段时，处理器130可以以预定数目为单位对这些片段进行分组，并控制通信器140在不同阶段向音乐识别服务器以组为单位发送片段。

具体地，处理器130可以按顺序向音乐识别服务器逐个发送片段。然而，处理器130可以对多个片段进行分组，并向音乐识别服务器发送分组后的片段。例如，当预定数目是5并生成5个片段时，处理器130可以将5个片段分成一组，并向音乐识别服务器发送所述片段，然后当生成了5个随后的片段时，处理器130可以将5个随后的片段分成一组并向音乐识别服务器发送所述片段。这样，处理器130可以在不同阶段以组为单位发送多个片段。

在这种情况下，响应于在向音乐识别服务器发送一个片段组之后通过通信器140从音乐识别服务器接收到音乐识别失败信号，处理器130可以向音乐识别服务器发送随后的片段组。例如，处理器130可以将5个片段分成一组并向音乐识别服务器发送分组后的片段，可以等待而不发送随后一组的5个片段。然后，响应于从音乐识别服务器接收到音乐识别失败信号，处理器130可以向音乐识别服务器发送随后一组的5个片段。

此外，响应于在向音乐识别服务器发送一个片段组之后通过通信器140从音乐识别服务器接收到音乐识别完成信号，处理器130可以不发送随后的片段组。例如，处理器130可以将5个片段分成一组并向音乐识别服务器发送分组后的片段，可以进行等待而不发送随后一组的5个片段。然后，响应于从音乐识别服务器接收到音乐识别完成信号或关于所识别的音乐的音乐信息，处理器130不向音乐识别服务器发送随后一组的5个片段。这里所述的音乐识别完成信号可以是通知音乐识别服务器200已识别到该音乐的信号，并且处理器130可以将与所识别的音乐相关的音乐信息理解为音乐识别完成信号。

响应于从音乐识别服务器发送由该片段识别出的音乐的音乐信息，处理器130可以控制存储该音乐信息。具体地，响应于从音乐识别服务器发送由该片段识别出的音乐的音乐信息，处理器130可以列出该音乐信息并将该音乐信息存储在存储设备(未示出)中。

处理器130可以控制在显示器(未示出)上显示该音乐信息。具体地，响应于通过通信器140从音乐识别服务器发送由该片段识别出的音乐的音乐信息，处理器130可以列出该音乐信息并将该音乐信息存储在存储设备(未示出)中，并且可以控制在显示器(未示出)上自动地或响应于用户操作而显示所存储的音乐信息。

通信器140负责与音乐识别服务器200进行通信。通信器140可以通过诸如互联网、有线、卫星等的网络来与音乐识别服务器进行通信。

图3是示出了根据示例实施例的内容处理设备的软件配置的视图。

处理器130可以包括中央处理单元(CPU)131；只读存储器(ROM)132，其中存储有用于控制内容处理设备100的控制程序；以及随机存取存储器(RAM)133，被用作针对在内容处理设备100中执行的任务的存储区域。

存储设备180可以包括多种软件模块，诸如，音频数据接收模块181、音频部分划分模块182、优先级确定模块183、片段重排模块184等。

音频数据接收模块181可以接收由音频处理器120提取的音频信号并将该音频信号以音频数据(PCM)的形式进行存储。在这种情况下，接收到的音频数据可以存储在内容处理设备100的存储设备180中。

音频部分划分模块182可以基于SNR确定特征部分，并根据音频数据生成包括该特征部分的片段。

具体地，音频部分划分模块182可以通过基于SNR分析该音频数据，来将音频信号的SNR大于或等于预定阈值的部分确定为特征部分，并检测音频数据中与该部分相对应的片段。

在这种情况下，音频部分划分模块182可以在预定阈值范围内可变地确定片段的大小。此外，由于音频部分划分模块182通过用起点和终点标记特征部分来生成片段，音频部分划分模块182可以使用关于起点和终点的信息来测量该片段的大小。

此外，音频部分划分模块182可以用置信分(音乐分、噪声分、话音分和其他分)来进行标记，并可以通过分析置信分来用片段的类型(纯音乐、音乐+语音/噪声/话音)进行标记。

音频部分划分模块182可以通过下式计算SNR：

SNR＝音乐分/(噪声分+话音分+其他分)

优先级确定模块183可以使用针对该片段所标记的起点和终点，来测量该片段的大小，并且可以将测量到的片段的大小与阈值范围进行比较。当片段的大小小于阈值范围时，优先级确定模块183可以将该片段与相邻片段合并，使得该片段的大小落入阈值范围内；且当片段的大小超过阈值范围时，优先级确定模块183可以将该片段划分为多片，使得片段的大小落入阈值范围内。

此外，当生成了多个片段时，优先级确定模块183可以按照SNR的顺序向多个片段分配优先级。具体地，优先级确定模块183可以使用针对该片段所标记的置信分来计算片段中的每个片段的SNR，并按照SNR的顺序分配优先级。

此外，当生成了预定数目的片段时，优先级确定模块183可以向所生成的片段分配优先级。具体地，当连续再现音乐时，可以连续生成多个片段。在这种情况下，当甚至在完成对音乐的再现之前生成了预定数目的片段时，优先级确定模块183可以仅向所生成的片段分配优先级。

当生成了多个片段时，片段重排模块184可以根据优先级重新排列所述片段，以便向服务器发送所述片段。在这种情况下，片段重排模块184可以以预定数目为单位对所述片段进行分组，并控制通信器140在不同阶段向音乐识别服务器以组为单位发送所述片段。也就是说，片段重排模块184可以依次逐个地向音乐识别服务器发送所述片段，或可以对多个片段进行分组并以组为单位向音乐识别服务器发送所述片段。

在这种情况下，片段重排模块184可以向音乐识别服务器发送一个片段组，然后，响应于通过通信器140从音乐识别服务器接收到音乐识别失败信号，可以向音乐识别服务器发送随后的片段组。

此外，片段重排模块184可以向音乐识别服务器发送一个片段组，然后，响应于通过通信器140从音乐识别服务器接收到音乐识别完成信号或音乐信息，可以不向音乐识别服务器发送随后的片段组。

图4是示出了根据示例实施例的用于生成音频数据的片段的方法的视图。

参考图4，图4中的图的水平轴表示音频信号的再现时间，纵轴表示噪声、话音和音乐信号的幅值。处理器130可以通过监控音频信号来计算音乐分、噪声分、话音分和其他分，并通过下式计算SNR：SNR＝音乐分/(噪声分+话音分+其他分)。

处理器130可以通过下式计算SNR：

SNR＝音乐分/(噪声分+话音分+其他分)。

在图4中，T1部分是音频信号中不包括音乐的部分。也就是说，T1部分是包括话音、噪声或其他信号而不包括音乐的部分，该部分的SNR小于预定阈值。因此，处理器130可以不检测该部分中的片段。

T2部分是音频信号中包括音乐的部分。在这种情况下，SNR的大小超于预定阈值，因此处理器130可以将T2部分确定为特征部分，并生成包括该特征部分的片段。此外，处理器130可以用起点(10秒)、终点(12秒)、音频的类型(纯音乐)、和置信度(音乐分、噪声分、话音分和其他分)来标记该片段。

T3部分是音频信号中包括音乐的部分。在这种情况下，SNR的大小超过预定阈值，因此处理器130可以将T3部分确定为特征部分，并生成包括该特征部分的片段。此外，处理器130用起点(12秒)、终点(13.5秒)、音频的类型(音乐+声音)、和置信度(音乐分、噪声分、话音分和其他分)来标记该片段。

T4部分是音频信号中不包括音乐的部分。也就是说，T4部分是包括噪声或其他信号而不包括音乐的部分，该部分的SNR小于预定阈值。因此，处理器130可以不在该部分中检测片段。

在T5和T7部分中，可以如上所述以相同方式生成片段。

在本示例实施例中，T2和T3部分具有不同的SNR，且被示出为单独的部分。然而，由于T2部分的SNR和T3部分的SNR超过预定阈值，处理器130可以将T2和T3部分视为单个部分，并检测该片段。

此外，在本示例实施例中，在存在音乐信号的T2、T3、T5和T7部分中检测片段。然而，当存在音乐信号，但相较于音乐信号，其他信号(话音、噪声和其他)的大小相对较大，且SNR小于预定阈值时，可能无法检测到所述片段。

图5是示出了根据示例实施例的片段的配置的视图。该片段包括根据SNR值划分的音频数据，并被标记有起点、终点、类型(纯音乐、音乐+语音/噪声/话音)和置信度(音乐分、噪声分、话音分和其他分)。

图6是示出了根据示例实施例的用于向片段分配优先级的方法的视图。

要确定(或测量)的是片段的大小是否大于或等于最小阈值(601)。

响应于确定片段的大小大于或等于最小阈值，确定片段的大小是否小于或等于最大阈值(602)。响应于确定片段的大小小于或等于最大阈值，可以向片段分配优先级，而无需对其进行划分或组合。

然而，响应于在步骤602确定片段的大小大于最大阈值，可以使用关于该片段的起点和终点的信息来划分该片段，使得片段的大小大于或等于最小阈值且小于或等于最大阈值，并可以向其分配优先级。

另一方面，响应于在步骤601确定片段的大小小于最小阈值，确定该片段的SNR是否大于或等于预定阈值(603)。

响应于确定SNR大于或等于预定阈值，可以通过使用关于该片段的起点和终点的信息将该片段与相邻片段进行组合，来生成新的片段，使得片段的大小大于或等于最小阈值并且小于或等于最大阈值。在这种情况下，可以使用新的片段来计算该片段的优先级。

然而，响应于在步骤603确定该片段的SNR的大小大于或等于预定阈值，可以不将片段的大小小于最小阈值的部分用于音乐识别，并可以丢弃该部分。

图7A是示出了根据示例实施例的用于划分片段的方法的视图。

参考图7A，假定片段的大小的阈值范围是从3秒到10秒(包括在内)，可以根据T7部分中的片段所包括的关于该部分的起点和终点的信息，看出该片段的大小超过最大阈值。

也就是说，由于片段的终点是55秒且片段的起点是40秒，该片段的大小是15秒，从而超过了预定阈值范围。因此，需要划分该片段以便使其落入阈值范围内，从而防止浪费网络流量和系统资源。

因此，处理器130可以将该片段划分为每个具有相同大小(也就是说，7.5秒)的片段。

在本示例实施例中，将片段划分为每个具有相同大小的片段。然而，不应将其理解为是限制性的。也就是说，处理器130可以将该片段划分为多个片段，其中每个片段的大小均落入阈值范围(3-10秒(包括在内))。

此外，在本示例实施例中，T7部分中的片段被划分为两个片段。然而，这不应被理解为是限制性的。例如，当初始片段的大小是30秒时，在满足最小阈值为3秒且最大阈值为10秒的范围内，处理器130可以将初始片段最少划分为三个片段或最多划分为10个片段。

图7B是示出了根据示例实施例的用于组合片段的方法的视图。

参考图7B，假定片段的大小的阈值范围是从3秒到10秒(包括在内)，可以根据该片段所包括的关于该部分的起点和终点的信息，看出该片段的大小小于最小阈值。

也就是说，由于T2部分中的片段的起点是10秒且终点是12秒，该片段的大小是2秒，从而小于最小阈值。此外，由于T3部分中的片段的起点是12秒且终点是13.5秒，该片段的大小是1.5秒，从而小于最小阈值。因此，需要将这些片段进行组合以便使之落入阈值范围内，从而确保音乐识别结果的准确性。

因此，处理器130可以通过组合这些片段来生成大小为3.5秒的片段，从而满足在阈值范围(3秒到10秒(包括在内))内的某个值。

在本示例实施例中，要组合的片段中的每一个片段的大小均小于最小阈值。然而，这不应被理解为是限制性的。也就是说，当一个片段的大小小于最小阈值时，可以组合这些片段，而无需考虑其他片段的大小是否大于或等于最小阈值。然而，在这种情况下，组合之后的片段的大小应是在阈值范围内的值。

此外，在本示例实施例中，将两个片段彼此进行组合。然而，这不应被理解为是限制性的。也就是说，可以组合三个或更多个片段，使得组合之后的片段的大小大于或等于最小阈值。

在本示例实施例中，将时间上连续的T2和T3部分中的片段彼此进行组合。然而，这不应被理解为是限制性的。例如，当T2和T3部分在时间上不是连续的且在T2和T3部分之间存在SNR小于或等于预定阈值的部分时，可以将相邻的T2和T3部分中的片段彼此进行组合。

图8是示出了根据示例实施例的用于分组和重新排列多个片段的方法的视图。

参考图8，当生成了多个片段时，处理器130可以以预定数目为单位对所述片段进行分组并在不同阶段向音乐识别服务器以组为单位发送片段。

具体地，处理器130可以向音乐识别服务器依次逐个地发送片段，还可以对所述片段进行分组并向音乐识别服务器发送分组后的片段。

例如，当预定数目是5且生成了5个片段时，处理器130将5个片段分为一组并向音乐识别服务器发送第一组。然后，当生成了另外的5个片段时，处理器130将这五个片段分为第二组，并向音乐识别服务器发送第二组。这样，处理器130可以在不同阶段以组为单位发送片段。

在这种情况下，响应于在向音乐识别服务器发送一个片段组之后通过通信器140从音乐识别服务器200接收到音乐识别失败信号，处理器130可以向音乐识别服务器200发送随后的片段组。

例如，处理器130可以向音乐识别服务器200发送第一组的片段，并进行等待而无需发送第二组的片段。然后，响应于从音乐识别服务器接收到音乐识别失败信号，处理器130可以通过通信器140向音乐识别服务器200发送第二组的片段。

此外，响应于在向音乐识别服务器发送一个片段组之后通过通信器140从音乐识别服务器200接收到音乐识别完成信号或所识别音乐的音乐信息，处理器130可以不发送随后的片段组。

例如，处理器130可以向音乐识别服务器200发送第一组的片段，并进行等待而无需发送随后第二组的片段。然后，响应于通过通信器140从音乐识别服务器200接收到音乐识别完成信号或所识别音乐的音乐信息，处理器130可以不向音乐识别服务器200发送随后第二组的片段。

在本示例实施例中，存在两个片段组。然而，这不应被理解为是限制性的。也就是说，可以依次发送片段组，直到完成音乐识别。此外，在本示例实施例中，将5个片段分为一个片段组。然而，这不应被理解为是限制性的。

图9是根据示例实施例的用于向片段分配优先级的方法的视图。

参考图9，根据关于每个片段的起点和终点的信息，按时间顺序排列所述片段。也就是说，按照片段1、片段2、片段3、片段4和片段5的顺序。

在这种情况下，处理器130可以根据SNR的大小，向片段分配优先级，并可以根据优先级重新排列所述片段，以便向音乐识别服务器发送所述片段。

也就是说，处理器130可以根据SNR的大小向所述片段分配优先级，以便按照片段5、片段1、片段4、片段3和片段2的顺序发送所述片段。

如上所述，当生成了多个片段时，处理器130可以按照SNR的顺序向多个片段分配优先级，并根据优先级依次向音乐识别服务器发送所述多个片段。

图10是示出了根据示例实施例的用于向片段分配优先级的方法的视图。

参考图10，当生成了预定数目的片段时，处理器130可以向所生成的片段分配优先级。

具体地，当连续再现音乐时，可以连续生成片段。在这种情况下，当甚至在完成对音乐的再现之前生成了预定数目的片段时，处理器130可以仅向所生成的片段分配优先级。

例如，在连续生成音乐的期间生成了总共30个片段。在这种情况下，当预定数目是5个且生成了5个片段时，处理器130可以按照SNR的顺序向5个片段分配优先级，并根据优先级依次向音乐识别服务器200发送所述片段。

在本示例实施例中，逐个发送片段。然而，处理器130可以按照图8所示的相同方法，对多个片段进行分组并发送分组后的片段。

例如，当用于向片段分配优先级的预定数目个片段是10个且用于对片段进行分组的预定数目是两个时，处理器130按照SNR的顺序向10个片段分配优先级，根据优先级将两个片段分为一组，并以组为单位向音乐识别服务器发送片段。

图11是示出了根据示例实施例的用于以预定间隔划分片段的方法的视图。

参考图11，处理器130可以以预定间隔生成预定大小的片段。

具体地，处理器130可以通过以固定间隔划分所述部分来生成多个片段，使得每个片段的大小落入阈值范围内。

例如，当阈值范围从3秒到10秒(包括在内)时，处理器130可以以固定间隔生成预定大小的片段，该片段满足从3秒到10秒(包括在内)的范围。在图11中处理器130以5秒为间隔生成预定大小的片段。

当片段的SNR小于或等于预定值时，处理器130丢弃该片段。

此外，当生成了多个片段时，处理器130可以按照SNR的顺序向多个片段分配优先级，并根据优先级依次地向音乐识别服务器发送所述多个片段。

具体地，处理器130可以生成包括标记有置信分的特征部分的片段，使用置信分计算每个片段的SNR，按照SNR的顺序重新排列所述片段，并向音乐识别服务器发送所述片段。

此外，如图8所示，当生成了多个片段时，处理器130可以以预定数目为单位对多个片段进行分组，并在不同阶段以组为单位向音乐识别服务器发送片段。

此外，如图10所示，当生成了预定数目的片段时，处理器130可以仅向所生成的片段分配优先级，并向音乐识别服务器发送所述片段。

图12是示出了根据示例实施例的作为内容处理设备的示例的TV的配置的框图。

参考图12，除了接收机110、音频处理器120、处理器130和通信器140，内容处理设备100还可以包括视频处理器150、显示器160、扬声器170和存储设备180。

视频处理器150可以针对广播内容的图像数据执行信号处理，诸如，解码和缩放。

显示器160可以在屏幕上显示由视频处理器150进行信号处理后的图像数据。

此外，显示器160可以显示音乐信息。具体地，响应于通过通信器140从音乐识别服务器接收由片段识别出的音乐的音乐信息并将其存储在存储设备180中，显示器160可以在其上显示该音乐信息并向用户提供该音乐信息。

扬声器170可以输出由音频处理器120进行信号处理后的音频数据。此外，在完成了音乐识别之后，可以通过处理器130控制扬声器170输出用户从音乐信息列表中选择的音乐。

存储设备180可以响应于从音乐识别服务器接收到由所述片段识别出的音乐的音乐信息，存储该音乐信息。具体地，存储设备180可以响应于通过通信器140从音乐识别服务器200发送由所述片段识别出的音乐的音乐信息，存储该音乐信息。

此外，当从音乐识别服务器200接收到多个音乐信息时，存储设备180可以列出并存储该音乐信息。

图12中，示出了TV作为示例。然而，这不应被理解为是限制性的。也就是说，内容处理设备100可以是能够通过网络、广播和麦克风来收集/再现音频流的任何设备，例如，TV、无线电、移动电话、计算机、MP3播放器等。当通过使用其他类型的设备来实现内容处理设备100时，可以省略或改变一部分元件。例如，当内容处理设备100是仅处理音频流的设备时，可以省略视频处理器150、显示器160等。

图13A示出了菜单窗口的视图，其中用户通过该菜单窗口打开音乐搜索模式。

参考图13A，用户可以通过使用设置在遥控设备或内容处理设备100的一些区域上的各种按钮(诸如，机械按钮、触摸板、滚轮等)，经由菜单窗口161来打开音乐搜索模式。

遥控设备可以是能够使用无线HDMI、Wi-Fi、蓝牙、IR Blaster、IrDa来向内容处理设备100发送控制信号的设备，并可以包括遥控器、用户终端设备等。

响应于用于打开音乐搜索模式的用户操控，处理器130可以接收由音频处理器120提取的音频信号并将该音频信号以音频数据(PCM)的形式进行存储，通过基于SNR分析音频信号确定音频信号中的特征部分，并检测包括该特征部分的片段。

在本示例实施例中，显示菜单窗口161以便打开音乐搜索模式。然而，这不应被理解为是限制性的。也就是说，内容处理设备100可以响应于在遥控设备上的仅一个触摸操作来搜索音乐，而无需提供菜单窗口161。此外，内容处理设备100可以根据用户设置，响应于接通TV的电力来自动搜索音乐，而无需额外操作。

图13B是示出了从音乐识别服务器200接收的并在显示器160显示的音乐信息的视图。

参考图13B，响应于用户打开了音乐搜索模式，内容处理设备100可以显示指示音乐搜索模式当前处于打开状态162的信息，并通过音乐搜索结果窗口163向用户提供音乐信息。

仅将音乐信息的标题显示在音乐搜索结果窗口163中。然而，这不应被理解为是限制性的。例如，可以附加显示标题、记录音乐的专辑的标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期、歌词和其他音乐信息。

图13C是示出了从音乐识别服务器200接收的并显示在显示器160上的音乐信息的视图。

参考图13C，可以以如下方式显示从音乐识别服务器200接收到的音乐信息(标题、记录音乐的专辑的标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期、歌词和其他音乐信息)：在音乐搜索结果窗口132中移动音乐信息。

图13D是示出了从音乐识别服务器200接收的并通过显示器160显示的音乐信息列表164的视图。

参考图13D，处理器130可以列出从音乐识别服务器200接收的音乐信息，并将所列出的音乐信息存储在存储设备180中，并可以响应于用户操作在显示器160上显示该音乐搜索列表164。

音乐搜索列表164可以参考当前时间显示再现音乐的时间。也就是说，可以看出，在参考当前时间的5分钟前、27分钟前、12小时前、以及1天零2小时前再现了图13D的音乐搜索列表164中的各个音乐。

此外，音乐搜索列表164可以显示对在再现音乐期间广播了什么节目加以指示的信息。例如，在正广播节目“Master of Job”的期间再现了歌曲“Pure Love of GardenBalsam”。

在本示例实施例中，音乐搜索列表164显示搜索时间、节目名称、标题、演唱者、专辑标题和发行日期。然而，这不应被理解为是限制性的。也就是说，可以将该音乐的标题、专辑标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期和其他音乐信息显示在音乐搜索列表164上。

图形用户界面(GUI)生成器(未示出)可以生成针对音乐搜索列表164的GUI，将该GUI添加到从视频处理器150输出的视频信号，并以添加有GUI的图像形式在显示器160上显示音乐搜索列表164。

图13E是示出了响应于在音乐信息列表164中选择了特定音乐而显示的显示屏的视图。

参考图13E，响应于在音乐信息列表164中选择了特定音乐，可以提供与该音乐相关的收听服务、音乐视频观看服务、下载服务等。

具体地，内容处理设备100可以从音乐识别服务器200或其他内容服务供应者接收音乐作为流媒体服务，并再现该音乐，或可以从音乐识别服务器200或其他内容服务供应者下载该音乐。

此外，内容处理设备100可以接收由音乐识别服务器200或其他内容服务供应者提供的相应音乐的音乐视频，或相关VOD服务。

尽管附图未示出，然而可以响应于用户选择了音乐，将该音乐的详细信息显示在显示器160上。也就是说，可以将所选音乐中的标题、专辑标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期和其他音乐信息的一部分或全部显示在显示器160上。

在本示例实施例中，在完成音乐搜索之后，从所列的音乐列表中选择音乐并进行再现。然而，这不应被理解为是限制性的。例如，可以将搜索到的音乐实时提供给用户。也就是说，响应于根据用户的音乐搜索命令而完成了音乐搜索，可以直接提供图13E的屏幕，使得可以向用户实时提供搜索到的音乐。响应于完成了音乐搜索，可以直接再现该音乐，或可以再现该音乐视频，而无需显示图13E的窗口。

图14是示出了与内容处理设备相连并在屏幕上显示音乐信息的外部设备的视图。

处理器130可以通过经由通信器140与和内容处理设备100相连的外部设备300进行通信，来向外部设备300提供音乐信息，并控制外部设备300再现音乐。

外部设备300可以是通过无线HDMI、WiFi、蓝牙、IR Blaster、IrDA、HDMI、USB等与内容处理设备100相连并与其通信的设备，并可以是移动通信终端、PC、便携式多媒体播放器(PMP)、遥控器、平板PC等。此外，外部设备300可以是家用网络系统中除了内容处理设备之外的其他设备，其中所述设备通过电话线、无线LAN、蓝牙、USB、IEEE 1394等建立的。

也就是说，处理器130可以通过经由通信器140与和内容处理设备100相连的外部设备300进行通信，来向外部设备300提供音乐信息并控制外部设备300在外部设备的显示器上显示该音乐信息(标题、专辑标题、制作人、作曲人、写词人、演唱者、播放时间、发行日期、歌词和其他音乐信息)。

此外，处理器130可以控制配备有音乐输出功能的外部设备300再现由用户选择的音乐。

图15是示出根据示例实施例的内容处理方法的流程图。

参考图15，首先接收内容(S1510)。

通过对内容中所包括的音频数据进行解码来提取音频信号(S1520)。

基于SNR确定音频信号中的特征部分，检测包括该特征部分的片段(S1530)。具体地，接收由音频处理器提取的音频信号并将其以音频数据(PCM)的形式进行存储，通过基于SNR分析音频数据来确定音频信号中的特征部分，并检测包括该特征部分的片段。在这种情况下，可以在预定阈值范围内可变地确定片段的大小。

可以向音乐识别服务器发送片段(S1540)。具体地，当生成了多个片段时，可以以预定数目为单位对片段进行分组，并在不同阶段以组为单位向音频识别服务器发送所述片段。此外，响应于在将一个片段组发送给音乐识别服务器之后从音乐识别服务器接收到音乐识别失败信号，可以向音乐识别服务器发送随后的片段组，响应于从音乐识别服务器接收到音乐识别完成信号，可以不发送随后的片段组。

所述方法还可以包括：当片段的大小小于阈值范围时，将该片段与相邻片段合并，当片段的大小超过阈值范围时，将该片段划分为多片。

当生成多个片段时，可以按照SNR的顺序向多个片段分配优先级，并可以根据优先级依次地向音乐识别服务器发送片段。在这种情况下，当生成了预定数目的片段时，可以向所生成的片段分配优先级。

所述方法还可以包括：响应于通过从音乐识别服务器发送由该片段识别出的音乐的音乐信息，存储该音乐信息。

所述方法还可以包括显示该音乐信息。

可以通过使用用于执行上述内容处理方法的至少一个执行程序，来实现上述内容处理方法，可以将执行程序存储在非暂时性计算机可读介质中。

非暂时性计算机可读介质是指半永久性地而非短时间地存储数据并可由装置读取的介质，诸如，寄存器、缓存器、存储器等。具体地，上述程序可以存储在诸如压缩盘(CD)、数字视频盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等的非暂时性计算机可读介质中，并可以提供在其中。

上述示例实施例和优点仅是示例性的，不应理解为对本公开的限制。本教义可以方便地应用于其他类型的装置。此外，对本公开的示例实施例的描述只是为了进行说明，而不是为了限制权利要求的范围，本领域技术人员应清楚存在多种的替换物、修改和变型。

Claims

1.一种内容处理设备，包括：

接收机，被配置为接收内容；

音频处理器，被配置为通过对内容中所包括的音频数据进行解码来获得音频信号；

通信器；以及

处理器，被配置为：

基于所述音频信号的音乐信号的比率，识别所述音频信号中的特征部分，

在所述音频信号中检测与所述特征部分相对应的片段，

基于所述片段的大小大于阈值范围的最大值，将所述片段与相邻片段合并，

基于所述片段的大小小于所述阈值范围的最小值时，划分所述片段，并且

控制所述通信器向外部服务器发送合并后的片段或划分后的片段，

其中合并后的片段或划分后的片段的大小在所述阈值范围的所述最小值与所述最大值之间。

2.根据权利要求1所述的内容处理设备，其中所述处理器被配置为计算音频信号中的音乐信号的比率，将音频信号中的音乐信号的比率大于或等于阈值的至少一个音频部分确定为特征部分，并通过用起点和终点标记特征部分来生成所述片段。

3.根据权利要求1所述的内容处理设备，其中检测到包括所述片段的多个片段，所述处理器被配置为将包括所述片段的所述多个片段中的一些片段分成一组，并控制通信器按顺序向外部服务器发送分组后的片段。

4.根据权利要求3所述的内容处理设备，其中将包括所述片段的所述多个片段分成多个片段组，向外部服务器发送多个片段组中的一个片段组，以及

所述处理器被配置为：响应于通过通信器从外部服务器接收音乐识别失败信号，向外部服务器发送所述多个片段组中的所述一个片段组之后的片段组，以及

其中所述处理器被配置为：在从外部服务器接收到音乐识别完成信号时，不发送所述多个片段组中的所述一个片段组之后的片段组。

5.根据权利要求1所述的内容处理设备，还包括：

存储设备，被配置为响应于从外部服务器发送根据所发送的所述片段而识别的音乐信息，存储所述音乐信息；以及

显示器，被配置为显示所述音乐信息。

6.根据权利要求1所述的内容处理设备，其中检测到多个片段，以及

所述处理器被配置为：按照音乐信号在音频信号中的比率的高顺序向所述多个片段分配优先级，并根据优先级依次向外部服务器发送所述多个片段。

7.根据权利要求6所述的内容处理设备，其中所述处理器被配置为：响应于所述多个片段达到预定数目，向所述多个片段分配优先级。

8.根据权利要求1所述的内容处理设备，其中通过下式来计算音频信号中的音乐信号的比率：

音频信号中的音乐的比率＝音乐分/(噪声分+话音分+其他分)。

9.一种用于发送内容处理设备的片段的方法，包括：

接收内容；

通过对内容中所包括的音频数据进行解码来获得音频信号；

基于所述音频信号的音乐信号的比率，识别所述音频信号中的特征部分；

在所述音频信号中检测与所述特征部分相对应的片段；

基于所述片段的大小大于阈值范围的最大值，将所述片段与相邻片段合并；

基于所述片段的大小小于所述阈值范围的最小值时，划分所述片段；以及

向外部服务器发送合并后的片段或划分后的片段，

10.根据权利要求9所述的方法，其中生成所述片段包括：计算音频信号中的音乐信号的比率，将音频信号中的音乐信号的比率大于或等于阈值的至少一个音频部分确定为特征部分，并通过用起点和终点标记特征部分来生成所述片段。

11.根据权利要求9所述的方法，其中检测到包括所述片段的多个片段，以及

向外部服务器发送所述片段包括：

将包括所述片段的所述多个片段中的一些片段分成一组，并按顺序向外部服务器发送分成一组的片段。

12.根据权利要求11所述的方法，其中将包括所述片段的所述多个片段分成多个片段组，以及

向外部服务器发送所述片段包括：在向外部服务器发送多个片段组中的一个片段组之后，响应于从外部服务器接收到音乐识别失败信号，向外部服务器发送所述多个片段组中的所述一个片段组之后的片段组，以及

其中在从外部服务器接收到音乐识别完成信号时，不发送所述多个片段组中的所述一个片段组之后的片段组。

13.根据权利要求9所述的方法，还包括：

响应于从外部服务器发送根据所发送的所述片段而识别的音乐信息，存储所述音乐信息；以及

显示所述音乐信息。