CN104125509A

CN104125509A - 节目识别方法、装置及服务器

Info

Publication number: CN104125509A
Application number: CN201310156479.3A
Authority: CN
Inventors: 刘海龙; 谢达东; 侯杰; 肖斌; 刘骁; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-04-28
Filing date: 2013-04-28
Publication date: 2014-10-29
Anticipated expiration: 2033-04-28
Also published as: WO2014176884A1; JP6116038B2; US9268846B2; US20140343704A1; JP2016518663A; CN104125509B

Abstract

本发明公开了一种节目识别方法、装置及服务器，属于计算机技术领域。所述方法包括：获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与第一音频指纹匹配的第二音频指纹，音频指纹库包括至少一组第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与第一音频指纹匹配的第二音频指纹，则将第二音频信号对应的节目作为第一音频信号的节目识别结果。节目识别装置包括：获取模块、检测模块和识别模块。本发明解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。

Description

节目识别方法、装置及服务器

技术领域

本发明涉及计算机技术领域，特别涉及一种节目识别方法、装置及服务器。

背景技术

当今社会中，虽然互联网在飞速发展，电视和广播仍然是主流的媒体传播平台，用户通过观看电视节目或收听广播节目来了解资讯。

若用户无意间观看或收听到一段节目，想要后续继续观看或收听该节目，则需要对该节目进行识别。现有技术中，用户可以获取一段节目中出现的关键字，手动点击键盘或点击触摸屏幕输入该关键字，终端接收用户输入的关键字，向服务器发送用于获取与该关键字对应的节目请求，并接收服务器根据该节目请求反馈的节目，将该节目作为关键字的节目识别结果。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有技术中，用户可能不能获取到节目的关键字或者获取到的节目的关键字有误，使得终端根据关键字向服务器发送的节目请求有误，从而不能获取到正确的节目，降低了节目识别的准确性。

发明内容

有鉴于此，本发明实施例提供了一种节目识别方法、装置及服务器。所述技术方案如下：

第一方面，本发明提供了一种节目识别方法，所述方法包括：

获取对应于第一音频信号的第一音频指纹；

在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；

若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果。

第二方面，本发明提供了一种节目识别装置，所述装置包括：

获取模块，用于获取对应于第一音频信号的第一音频指纹；

检测模块，用于在预设的音频指纹库中检测是否存在与所述获取模块获取到的所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；

识别模块，用于若所述检测模块检测的结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果。

第三方面，本发明提供了一种服务器，所述服务器包括如上所述的节目识别装置。

通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的节目识别方法的方法流程图；

图2是本发明实施例二提供的节目识别方法的方法流程图；

图3是本发明实施例三提供的节目识别方法的方法流程图；

图4是本发明提供的终端坐标系的第一种建立方式的示意图；

图5是本发明提供的终端坐标系的第二种建立方式的示意图；

图6是本发明实施例三提供的节目识别的应用场景示意图；

图7是本发明实施例三提供的终端的摇动界面示意图；

图8是本发明实施例三提供的互动规则的界面示意图；

图9是本发明实施例四提供的节目识别装置的结构示意图；

图10是本发明实施例五提供的节目识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

请参考图1，其示出了本发明实施例一提供的节目识别方法的方法流程图，该节目识别方法可以应用于服务器中。该节目识别方法，包括：

步骤101，获取对应于第一音频信号的第一音频指纹；

本实施例中，可以根据获取到的第一音频信号进行节目识别，该第一音频信号可以通过麦克风采集；或者，也可以根据获取到的视频信号进行节目识别，该视频信号可以通过摄像头采集，本实施例不对信号类型以及该信号的采集方式作限定。由于视频信号的数据量较大，因此，为了提高节目识别的效率，优选地，本实施例以根据音频信号进行节目识别为例进行说明。

其中，音频指纹是指可以代表一段音频重要声学特征的基于音频内容的高压缩比的紧凑数字签名，可以用来唯一地标识一种音频信号。

步骤102，在预设的音频指纹库中检测是否存在与第一音频指纹匹配的第二音频指纹，若检测结果为存在与第一音频指纹匹配的第二音频指纹，则执行步骤103；

由于第一音频指纹可以唯一地标识一种音频信号，因此，服务器可以预先获取音频指纹库，并在该音频指纹库中检测是否存在与第一音频指纹匹配的第二音频指纹，若检测结果为存在与第一音频指纹匹配的第二音频指纹，则可以执行步骤103；若检测结果为不存在与第一音频指纹匹配的第二音频指纹，则服务器不能识别该节目，并结束流程。其中，音频指纹库可以包括至少一组第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号。

步骤103，将第二音频信号对应的节目作为第一音频信号的节目识别结果。

由于第二音频指纹对应于一个节目的第二音频信号，则根据第一音频指纹确定第二音频指纹后，可以根据该第二音频指纹确定第二音频信号所属的节目，将该节目作为第一音频指纹的节目识别结果。

综上所述，本发明实施例提供的节目识别方法，通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。

实施例二

请参考图2，其示出了本发明实施例二提供的节目识别方法的方法流程图，该节目识别方法可以应用于服务器中。该节目识别方法，包括：

步骤201，获取对应于第一音频信号的第一音频指纹；

本实施例中，可以根据获取到的第一音频信号进行节目识别，该第一音频信号可以通过麦克风采集；或者，也可以根据获取到的视频信号进行节目识别，该视频信号可以通过摄像头采集，本实施例不对信号类型以及该信号的采集方式作限定。由于视频信号的数据量较大，因此，为了提高节目识别的效率，优选地，本实施例以根据音频信号进行节目识别为例进行说明。其中，音频信号可以是8KHz采样频率、16比特量化的PCM（Pulse Code Modulation，脉冲编码调制）格式的音频流。

进一步地，第一音频信号可以为终端所处环境的音频信号，则可以通过终端对第一音频信号进行采集。终端在采集第一音频信号时，可以预先设置第一音频信号的采集时长，则终端可以在检测接收到触发信号后进行第一音频信号的采集，并开始计时，在计时达到采集时长后，结束对第一音频信号的采集。若该采集时长设置的较短，则服务器可能不能准确识别出该第一音频信号对应的节目，降低了识别第一音频信号的准确性；若该采集时长设置的较长，则终端采集该第一音频信号以及服务器识别该第一音频信号时会造成资源的浪费，因此，可以根据实际需要设置一个较为合适的采集时长，通常将采集时长设置为5至15秒。

终端可以将采集到的第一音频信号直接发送给服务器，由服务器对该第一音频信号计算第一音频指纹，并根据该第一音频指纹进行第一音频信号的识别。然而，由于终端传输第一音频信号耗费的流量远远大于传输第一音频指纹耗费的流量，且对第一音频信号计算第一音频指纹对终端性能的要求不高，因此，终端可以对采集到的第一音频信号计算第一音频指纹，并将该第一音频指纹发送给服务器，以节省传输第一音频信号时耗费的流量。

本实施例以服务器接收第一音频信号，并根据第一音频信号计算第一音频指纹为例进行说明。具体地，第一音频信号可以包括至少一个第一峰值点，对应于第一音频信号的第一音频指纹可以包括至少一个待测二元组，每一个待测二元组可以包括一个第一峰值点的采集时间和对应于该第一峰值点的哈希码，则根据第一音频信号计算第一音频指纹，可以包括：

从第一音频信号中提取至少一个第一峰值点，并获取每一个第一峰值点的采集时间和采集频率；

在预定范围内获取与第一峰值点匹配的配对峰值点的配对时间和配对频率；

计算采集时间与配对时间的时间差值和采集频率与配对频率的频率差值；

对于每一个第一峰值点，对与第一峰值点对应的采集频率、时间差值和频率差值进行哈希运算得到哈希值，并将哈希值确定为对应于该第一峰值点的哈希码；

将每一个第一峰值点的采集时间和对应于该第一峰值点的哈希码作为一个待测二元组进行保存，并将至少一个待测二元组作为第一音频指纹。

服务器需要从第一音频信号中提取出至少一个第一峰值点，根据该第一峰值点计算第一音频信号的第一音频指纹。其中，峰值点为对第一音频信号进行时频分析，得到该第一音频信号的二维时频图，将该二维时频图拆分成预定数量的时频子图后，每个时频子图中的矩形邻域内能量值极大的特征点。

服务器在提取第一音频信号的第一峰值点时，可以预先对第一音频信号进行分帧处理，形成多个音频帧信号。具体地，服务器可以通过窗函数对第一音频信号进行分帧处理，该窗函数可以是海明窗函数、汉宁窗函数、高斯窗函数等，优选地，为了避免两个音频帧信号之间不连续的问题，可以对第一音频信号进行分帧处理时，设置音频帧信号的重叠量。比如，将重叠量设置为16毫秒，则当前音频帧信号中前16毫秒的内容与前一音频帧信号中最后16毫秒的内容相同。

服务器获取到音频帧信号后，可以对每一个音频帧信号进行STFT（Short-Time Fourier Transform，短时傅里叶变换），得到每一个音频帧信号的频率谱，并提取该每一个音频帧信号的频率谱对应的幅度谱，按照每一个音频帧信号的时间顺序，依次绘制每一个音频帧信号的频率谱和幅度谱，形成第一音频信号的二维时频图。

服务器对二维时频图按照时间t对M取模的方式进行拆分，生成M个对应于相位通道的时频子图，M为正整数。比如，在二维时频图中分别选取t=M-1、(M-1)+M…(M-1)+xM每个时间对应的特征点，将选取的特征点组成时频子图M，x为正整数，且0<(M-1)+xM≤t_max，其中t_max为二维时频图中的最大时间点。本发明实施例中，一个时频子图对应第一音频信号的一个相位通道，比如，时频子图M对应相位通道M。

服务器在每个相位通道对应的时频子图中分析每个特征点的能量值，根据每个特征点的能量值选取一定矩形邻域内能量值极大的特征点作为第一峰值点，获取该第一峰值点的采集时间和该第一峰值点的采集频率。服务器在匹配该第一峰值点时，可以选取一个矩形目标区域，在该矩形目标区域内选取除该第一峰值点之外的峰值点与该第一峰值点进行匹配，该配对峰值点的选取原则可以包括：选取出现时间与该第一峰值点的出现时间的时间差最小的峰值点；或者，选取除该第一峰值点之外的能量值最大的峰值点。在服务器确定配对峰值点后，获取该配对峰值点出现的配对时间和该配对峰值点的配对频率。

服务器计算采集时间与配对时间的第二时间差值和采集频率与配对频率的第二频率差值，得到四元组（采集时间，采集频率，第二时间差值，第二频率差值）。进一步地，服务器可以对（采集频率，第二时间差值，第二频率差值）进行哈希运算，得到固定比特位数的哈希值，并将该哈希值作为与该第一峰值点对应的哈希码，则每一个待测二元组可以表示为（采集时间，哈希码）。

由于终端发送第一峰值点比发送第一音频指纹所耗费的流量少，因此，终端还可以在确定出第一峰值点后，对第一峰值点进行压缩后发送给服务器，服务器在接收到压缩后的第一峰值点后，对该第一峰值点进行解压，并根据该第一峰值点计算对应的待测二元组，从而计算出第一音频指纹。

通常，服务器采集的第一音频信号的时长为5至15秒，可以对应于几百个待测二元组。为了便于说明，本实施例以第一音频信号包括4个待测二元组为例进行说明，则第一音频指纹可以为{（t₁，hashcode₁），（t₂，hashcode₂），（t₃，hashcode₃），（t₄，hashcode₄）}。其中，t是相对于终端开始采集第一音频信号的时间的相对时间。比如，终端从第20秒处开始第一音频信号采集且某一个待测二元组对应的第一峰值点的实际采集时间为21秒，则该待测二元组的采集时间可以记为1秒。

进一步地，服务器可以通过有线网络或无线网络将信号发送给服务器。比如，通过2G（2nd Generation，第二代移动通信技术）、3G（3rd Generation，第三代移动通信技术）和WiFi（Wireless Fidelity，无线保真）等网络获取第一音频指纹，本实施例不对接收方式作限定。

步骤202，在节目中获取预定时长的第二音频信号，预定时长为ΔT且预定时长的终点时刻为当前时刻T；根据第二音频信号计算第二音频指纹；将第二音频指纹以及第二音频指纹与节目的对应关系保存在音频指纹库中；

本实施例中，音频指纹库包括至少一组第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号，第二音频信号可以为直播节目的音频信号。

服务器需要预先获取对应于所有节目的第二音频信号，从而实现对终端发送的第一音频信号的识别。具体地，服务器可以获取对应于节目的第二音频信号的第二音频指纹以及第二音频指纹与节目的对应关系，并根据第二音频指纹对终端发送的第一音频信号进行识别。其中，服务器获取第二音频指纹的方法有很多种，比如，服务器可以接收对应于所有节目的第二音频信号，并对每一个第二音频信号分别计算第二音频指纹；或者，服务器可以接收其他服务器发送的分别对应于每一个节目的第二音频指纹，本实施例不作限定。其中，第二音频信号可以为直播节目的音频信号。

当第二音频信号为直播的卫星电视信号时，可以将卫星信号转换为各个卫星电视频道的TS（Transport Stream，传输流）流，从TS流中抽取出音频流，并以8KHz采样频率、16比特量化提取出PCM格式的音频流。

由于终端将采集到的第一音频信号发送给服务器会产生时延，因此，为了保证服务器获取到的对应于直播节目的第二音频信号包括终端发送的第一音频信号，还可以对服务器将直播节目中获取的第二音频信号的时长设置为大于采集时长的预定时长，该预定时长为ΔT且预定时长的终点时刻为当前时刻T。通常，当采集时长为5至15秒时，可以将预定时长设置为1至2分钟。

第二音频信号可以包括至少一个第二峰值点，对应于第二音频信号的第二音频指纹可以包括至少一个参考二元组，每一个参考二元组可以包括一个第二峰值点的采集时间和对应于该第二峰值点的哈希码，则根据第二音频信号计算第二音频指纹，可以包括：

从第二音频信号中提取至少一个第二峰值点，并获取每一个第二峰值点的采集时间和采集频率；

在预定范围内获取与第二峰值点匹配的配对峰值点的配对时间和配对频率；

对于每一个第二峰值点，对与第二峰值点对应的采集频率、时间差值和频率差值进行哈希运算得到哈希值，并将哈希值确定为对应于第二峰值点的哈希码；

将每一个第二峰值点的采集时间和对应于第二峰值点的哈希码作为一个参考二元组进行保存，并将至少一个参考二元组作为第二音频指纹。

通常，1至2分钟的音频信号可以包括几千个参考二元组，本实施例以音频信号包括m个参考二元组为例进行说明，则第二音频指纹可以为{（T₁₁，hashcode₁₁），（T₁₂，hashcode₁₂），…，（T_1n，hashcode_1n），（T_1n+1，hashcode_1n+1），（T_1n+2，hashcode_1n+2），（T_1n+3，hashcode_1n+3），…，（T_1m，hashcode_1m）}。其中，T是音频信号的实际采集时间。比如，某一个参考二元组对应的第二峰值点的实际采集时间为21秒，则该待测二元组的采集时间可以记为21秒。

其中，服务器根据第二音频信号计算第二音频指纹的流程与服务器根据第一音频信号计算第一音频指纹的流程相同，详见步骤201中的描述，此处不赘述。

进一步地，在保存第二音频指纹与节目的对应关系时，可以将节目作为主索引、哈希码作为次索引，即将节目标识相同的参考二元组作为一个序列，且序列中的每个参考二元组按照哈希码的升序进行排列；或者，可以将哈希码作为主索引、节目标识作为次索引，即将哈希码相同的参考二元组作为一个序列。当然，还可以采用其他方式保存第二音频指纹与节目的对应关系，本实施例不作限定。

步骤203，对于每一组第二音频指纹，计算第一音频指纹与第二音频指纹的匹配度；

具体地，第一音频信号可以包括至少一个第一峰值点，对应于第一音频信号的第一音频指纹包括至少一个待测二元组，每一个待测二元组包括一个第一峰值点的采集时间和对应于第一峰值点的哈希码；第二音频信号可以包括至少一个第二峰值点，对应于第二音频信号的第二音频指纹包括至少一个参考二元组，每一个参考二元组包括一个第二峰值点的采集时间和对应于第二峰值点的哈希码，则计算第一音频指纹与第二音频指纹的匹配度，可以包括：

对于每一个待测二元组和参考二元组，检测待测二元组的哈希码与参考二元组的哈希码是否相同；

若检测结果为待测二元组的哈希码与参考二元组的哈希码相同，则计算待测二元组的采集时间和参考二元组的采集时间的采集时差；

计算第一音频指纹与第二音频指纹每一个采集时差的累计数；

确定累计数中的最大累计数，并将最大累计数确定为第一音频指纹与第二音频指纹的匹配度。

为了便于理解，举一个实例说明。比如，假设第一音频指纹与某一个第二音频指纹在检测相同哈希码后，计算出3个不同的采集时差，且3个采集时差的累计数分别为4、27和9，则第一音频指纹与该第二音频指纹的匹配度为27。

由于t是相对于终端开始采集第一音频信号的时间的相对时间，T是第二音频信号的实际采集时间，则计算得到的Δt是终端开始采集第一音频信号的时间。

步骤204，确定与第一音频指纹具有最大匹配度的第二音频指纹；

由于第一音频指纹与第二音频指纹的匹配度越大，终端发送的第一音频信号是对应于节目的第二音频信号的概率越高，则服务器可以在计算得到的匹配度中确定一个最大匹配度，并将与该最大匹配度对应的第二音频指纹确定为与第一音频指纹匹配的指纹。

步骤205，检测第二音频指纹的最大匹配度是否超过预设阈值，若检测结果为第二音频指纹的最大匹配度超过预设阈值，则确定存在与第一音频指纹匹配的第二音频指纹；

进一步地，为了避免计算误差造成的第一音频指纹与第二音频指纹具有匹配度的问题，还可以设置预设阈值，则当服务器确定检测到最大匹配度超过该预设阈值后，将与该最大匹配度对应的第二音频指纹确定为与第一音频指纹匹配的第二音频指纹，以提高匹配第一音频指纹与第二音频指纹的准确性。

步骤206，将第二音频信号对应的节目作为第一音频信号的节目识别结果。

综上所述，本发明实施例提供的节目识别方法，通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。另外，通过确定与第一音频指纹具有最大匹配度的第二音频指纹，检测第二音频指纹的最大匹配度是否超过预设阈值，若检测结果为第二音频指纹的最大匹配度超过预设阈值，则确定存在与第一音频指纹匹配的第二音频指纹，解决了根据计算误差造成的匹配度确定第二音频指纹造成的节目识别有误的问题，达到了进一步提高节目识别的准确性的效果。

实施例三

请参考图3，其示出了本发明实施例三提供的节目识别方法的方法流程图，该节目识别方法可以应用于服务器中。该节目识别方法，包括：

步骤301，终端检测是否接收到触发信号，该触发信号包括摇动信号、声控信号、键盘信号、单击信号、双击信号、多击信号、光标或点击停留信号、预定手势信号、快捷键信号中的任意一种或者几种的组合，若检测结果为接收到触发信号，则确定执行步骤302；

为了避免终端实时采集信号造成的资源浪费，可以对终端设置采集信号的触发操作，若终端接收到执行该触发操作产生的触发信号，则确定执行对终端所处的环境进行信号采集的步骤，即执行步骤302。

本实施例中，触发信号可以包括摇动信号、声控信号、键盘信号、单击信号、双击信号、多击信号、光标或点击停留信号、预定手势信号、快捷键信号中的任意一种或者几种的组合。其中，触发信号可以是用户点击键盘或点击触摸屏幕产生的。由于点击键盘或点击触摸屏幕容易造成终端器件的损耗，降低终端的使用寿命，因此，优选地，可以利用终端中的传感器确定是否接收到触发信号。

比如，终端通过重力加速度传感器采集终端的加速度，并判断该加速度是否满足预设条件，若该加速度满足预设条件，则确定该加速度是触发信号；或者，终端通过麦克风采集终端的声音信号，并判断该声音信号是否满足预设条件，若该声音信号满足预设条件，则确定该声音信号是触发信号。当然，还可以通过其他方式检测终端是否接收到触发信号，本实施例不作限定。

具体地，若触发信号为摇动信号，则检测是否接收到触发信号，可以包括：

通过传感器获取终端在预定时间段内的加速度；

检测该加速度的加速度方向是否变化预定次数；

若检测结果为该加速度的加速度方向变化了预定次数，则确定接收到触发信号。

本实施例中的重力加速度传感器可以是三轴加速计、三轴陀螺仪等。在使用传感器时，可以根据传感器的三条敏感轴的方向所在直线为终端建立坐标系。通常，三条敏感轴的方向分别对应于终端的长、宽和高，则根据敏感轴的方向建立的终端坐标系可以为：设定终端的界面为xz平面，其中，终端的中心为坐标原点，指向终端右方的为x轴的正半轴，在终端平面上垂直于x轴的为z轴，xz平面内指向终端上方的为z轴的正半轴，垂直于终端平面的为y轴，xz平面外指向终端上方的为y轴的正半轴，详情请参考图4或图5，其中图4为诸如手机之类的阅读方向为竖向的移动终端通常采用的坐标系建立方式；图5为诸如平板电脑之类的阅读方向为横向的移动终端通常采用的坐标系建立方式。

在通过传感器获取到加速度之后，假设终端在x轴方向上摇动，则可以检测加速度的加速度方向是否在x轴方向上变换预定次数，若加速度方向在x轴方向上变换了预定次数，则确定接收到触发信号；若加速度方向未在x轴方向上变换预定次数，则确定未接收到触发信号。比如，假设x轴方向为左右方向，则可以将加速度方向从向右变为向左记为一次变换等，本实施例不作限定。

进一步地，为了提高终端检测触发信号的准确性，还可以检测加速度在该加速度方向上的加速度大小是否超过预设阈值，若检测结果为该加速度方向变化了预定次数且该加速度大小超过预设阈值，则确定终端接收到触发信号。

在通过传感器获取到加速度a后，可以将该加速度a在x轴、y轴和z轴的方向上进行分解，得到对应于三个轴向的加速度分量a_x、a_y和a_z。仍以终端在x轴方向上摇动为例进行说明，则可以设置x轴上的加速度阈值a_x0，并检测a_x的绝对值是否大于a_x0，若是，则确定加速度在x轴方向上的加速度分量a_x的绝对值超过与x轴方向对应的阈值a_x0，确定接收到触发信号。

为了便于理解本实施例的应用场景，本实施例提供了节目识别的应用场景示意图和终端的摇动界面示意图，请分别参考图6和图7。图6中，用户在观看电视节目的过程中摇动终端，则终端中出现图7所示的界面，以表明启动节目识别的应用。

步骤302，终端向服务器发送信号；

终端可以向服务器发送第一音频信号，以便服务器根据该第一信号获取第一音频指纹，该第一音频指纹对应于终端所处环境的音频信号；根据第一音频指纹对第一音频信号的节目进行识别。

具体地，第一音频信号可以包括至少一个第一峰值点，对应于第一音频信号的第一音频指纹可以包括至少一个待测二元组，每一个待测二元组可以包括一个第一峰值点的采集时间和对应于该第一峰值点的哈希码，则根据第一音频信号计算第一音频指纹，可以包括：

其中，终端根据第一音频信号计算第一音频指纹的流程与服务器根据第一音频信号计算第一音频指纹的流程相同，详见步骤201中的描述，此处不赘述。

进一步地，终端可以通过有线网络或无线网络将信号发送给服务器。比如，通过2G、3G和WiFi等网络将信号发送给服务器，本实施例不对发送方式作限定。

步骤303，服务器根据终端发送的信号获取第一音频指纹；

其中，服务器可以根据第一音频信号计算第一音频指纹，或者，服务器可以接收终端根据第一音频信号计算得到的第一音频指纹，本实施例不对服务器获取第一音频信号的方式作限定。

步骤304，在节目中获取预定时长的第二音频信号，预定时长为ΔT且预定时长的终点时刻为当前时刻T；根据第二音频信号计算第二音频指纹；将第二音频指纹以及该第二音频指纹与节目的对应关系保存在音频指纹库中；

从音频信号中提取至少一个第二峰值点，并获取每一个第二峰值点的采集时间和采集频率；

对于每一个第二峰值点，对与第二峰值点对应的采集频率、时间差值和频率差值进行哈希运算得到哈希值，并将哈希值确定为对应于该第二峰值点的哈希码；

将每一个第二峰值点的采集时间和对应于该第二峰值点的哈希码作为一个参考二元组进行保存，并将至少一个参考二元组作为第二音频指纹。

步骤305，对于每一组第二音频指纹，计算第一音频指纹与第二音频指纹的匹配度；确定与第一音频指纹具有最大匹配度的第二音频指纹；检测第二音频指纹的最大匹配度是否超过预设阈值；若检测结果为第二音频指纹的最大匹配度超过预设阈值，则将第二音频信号对应的节目作为第一音频信号的节目识别结果；

第一音频信号可以包括至少一个第一峰值点，对应于第一音频信号的第一音频指纹可以包括至少一个待测二元组，每一个待测二元组可以包括一个第一峰值点的采集时间和对应于该第一峰值点的哈希码；第二音频信号可以包括至少一个第二峰值点，对应于第二音频信号的第二音频指纹包括至少一个参考二元组，每一个参考二元组包括一个第二峰值点的采集时间和对应于该第二峰值点的哈希码，则计算第一音频指纹与第二音频指纹的匹配度，可以包括：

对于每一个待测二元组和参考二元组，检测待测二元组的哈希码与参考二元组哈希码是否相同；

计算第一音频指纹与第二音频指纹中每一个采集时差的累计数；

其中，服务器检测音频指纹库中是否存在与第一音频指纹匹配的第二音频指纹的流程详见步骤203中的描述，此处不赘述。

步骤306，第三方客户端向服务器发送至少一种对应于节目的互动信息；

本实施例中，第三方客户端可以预先对节目中需要开展的互动活动的互动信息进行编辑，并将该编辑后的互动信息发送给服务器，以便服务器将互动信息转发给终端。具体地，第三方客户端可以是电台等，本实施例不作限定。

进一步地，为了提高节目识别的安全性，还可以对第三方客户端进行认证，以避免恶意互动信息的发布，从而避免终端对虚假互动活动的参与，提高了互动活动的安全性。比如，第三方客户端可以向服务器申请公共账号，在服务器对第三放客户端的认证通过且授予第三方客户端该公共账号后，第三方客户端可以通过该公共账号登录服务器，并通过该公共账号编辑或发送互动信息。

步骤307，服务器接收第三方客户端发送的至少一种对应于节目的互动信息；

步骤308，服务器根据至少一种互动信息建立互动信息库；

服务器可以对接收到的至少一种互动信息建立互动信息库，以便于对互动信息的管理。

步骤309，服务器向终端反馈对应于节目的互动信息；

当查找对应于节目的互动信息时，由于服务器在建立音频指纹库时已经预先存储了第二音频指纹与节目的对应关系，则可以根据第二音频指纹确定对应的节目，从而获取对应于该节目的互动信息，以便终端根据互动信息参与对应于节目的互动活动。具体地，可以通过节目标识来唯一地标识一个节目，则服务器可以预先存储第二音频指纹与节目标识的对应关系，并在确定第二音频指纹后，获取与该第二音频指纹对应的节目标识。由于互动消息中包括节目标识，则服务器可以查找包括该获取到的节目标识的互动信息，并将该互动信息确定为对应于节目的互动信息。

若当前存在互动活动，则服务器将该互动信息发送给终端；若当前不存在互动活动，则服务器向终端发送不存在互动活动的响应信息。

步骤310，终端接收服务器反馈的互动信息；

若当前存在互动活动，则终端可以接收服务器反馈的互动信息，并执行步骤311；若当前不存在互动活动，则终端可以接收服务器反馈的不存在互动活动的响应信息，并根据该响应信息结束节目识别的流程。

步骤311，终端根据互动信息参与对应于节目的互动活动。

由于互动信息还可以包括互动活动的介绍信息，比如，规则介绍、参与方式、宣传内容等，则终端可以根据该互动信息参与互动活动。

若互动信息为规则介绍，则请参考图8所示的互动规则的界面示意图，图8示出了终端显示互动活动的规则的界面。终端点击互动信息后，进入如图8所示的信息界面，界面中包括互动活动的规则介绍。其中，界面可以是应用程序的界面，也可以是公众账号提供的界面，还可以是由应用程序或第三方提供的网页，本实施例不作限定。

综上所述，本发明实施例提供的节目识别方法，通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。另外，通过接收第三方客户端发送的至少一种对应于所述节目的互动信息；根据所述至少一种互动信息建立所述互动信息库，可以对第三方客户端进行认证，解决了接收到的节目信息不安全造成的获取到虚假节目的问题，达到了提高节目识别的安全性的效果。

实施例四

请参考图9，其示出了本发明实施例四提供的节目识别装置的结构框架图。该节目识别装置可以包括：

获取模块910，用于获取对应于第一音频信号的第一音频指纹；

检测模块920，用于在预设的音频指纹库中检测是否存在与获取模块910获取到的第一音频指纹匹配的第二音频指纹，音频指纹库包括至少一组第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；

识别模块930，用于若检测模块920检测的结果为存在与第一音频指纹匹配的第二音频指纹，则将第二音频信号对应的节目作为第一音频信号的节目识别结果。

综上所述，本发明实施例提供的节目识别装置，通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。

实施例五

请参考图10，其示出了本发明实施例五提供的节目识别装置的结构框架图。该节目识别装置可以包括：

进一步地，第一检测模块920，可以包括：

第一计算单元921，用于对于每一组第二音频指纹，计算第一音频指纹与第二音频指纹的匹配度；

第一确定单元922，用于确定与第一音频指纹具有第一计算单元921计算出的最大匹配度的第二音频指纹；

检测单元923，用于检测第一确定单元922确定的第二音频指纹的最大匹配度是否超过预设阈值；

第二确定单元924，用于若检测单元923检测的结果为第二音频指纹的最大匹配度超过预设阈值，则确定存在与第一音频指纹匹配的第二音频指纹。

进一步地，第一音频信号可以包括至少一个第一峰值点，对应于第一音频信号的第一音频指纹包括至少一个待测二元组，每一个待测二元组包括一个第一峰值点的采集时间和对应于该第一峰值点的哈希码；第二音频信号可以包括至少一个第二峰值点，对应于第二音频信号的第二音频指纹包括至少一个参考二元组，每一个参考二元组包括一个第二峰值点的采集时间和对应于该第二峰值点的哈希码，则第一计算单元921，可以包括：

检测子单元921A，用于对于每一个待测二元组和参考二元组，检测待测二元组的哈希码与参考二元组的哈希码是否相同；

第一计算子单元921B，用于若检测子单元921A检测的结果为待测二元组的哈希码与参考二元组的哈希码相同，则计算待测二元组的采集时间和参考二元组的采集时间的采集时差；

第二计算子单元921C，用于计算第一计算子单元921B计算出的第一音频指纹与第二音频指纹中每一个采集时差的累计数；

第一确定子单元921D，用于确定第二计算子单元921C计算出的累计数中的最大累计数，并将该最大累计数确定为第一音频指纹与第二音频指纹的匹配度。

进一步地，第一检测模块920，还可以包括：

获取单元925，用于第一计算单元921计算所述第一音频指纹与所述第二音频指纹的匹配度之前，在节目中获取预定时长的第二音频信号，预定时长为ΔT且预定时长的终点时刻为当前时刻T；

第二计算单元926，用于根据第一获取单元925获取到的第二音频信号计算第二音频指纹；

保存单元927，用于将第二计算单元926计算出的第二音频指纹以及第二音频指纹与节目的对应关系保存在音频指纹库中。

进一步地，第二计算单元926，可以包括：

第一获取子单元926A，用于从第二音频信号中提取至少一个第二峰值点，并获取每一个第二峰值点的采集时间和采集频率；

第二获取子单元926B，用于在预定范围内获取与第一获取子单元926A提取的第二峰值点匹配的配对峰值点的配对时间和配对频率；

第三计算子单元926C，用于计算第一获取子单元926A获取到的采集时间与第二获取子单元926B获取到的配对时间的时间差值和第一获取子单元926A获取到的采集频率与第二获取子单元926B获取到的配对频率的频率差值；

第四计算子单元926D，用于对于每一个第二峰值点，对与该第二峰值点对应的第一获取子单元926A获取到的采集频率、第三计算子单元926C计算得到的时间差值和频率差值进行哈希运算得到哈希值，并将哈希值确定为对应于第二峰值点的哈希码；

第二确定子单元926E，用于将第一获取子单元926A获取到的每一个第二峰值点的采集时间和第四计算子单元926D计算出的对应于第二峰值点的哈希码作为一个参考二元组进行保存，并将至少一个参考二元组作为第二音频指纹。

进一步地，第一音频信号为终端所处环境的音频信号，第二音频信号为直播节目的音频信号。

综上所述，本发明实施例提供的节目识别装置，通过获取对应于第一音频信号的第一音频指纹；在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，所述音频指纹库包括至少一组所述第二音频指纹，且每一组第二音频指纹对应于一个节目的第二音频信号；若检测结果为存在与所述第一音频指纹匹配的第二音频指纹，则将所述第二音频信号对应的节目作为所述第一音频信号的节目识别结果，解决了用户可能不能获取到节目的关键字或者获取到的节目的关键字有误造成的不能获取到正确的节目，降低了节目识别的准确性的问题，达到了提高节目识别的准确性的效果。另外，通过确定与第一音频指纹具有最大匹配度的第二音频指纹，检测第二音频指纹的最大匹配度是否超过预设阈值，若检测结果为第二音频指纹的最大匹配度超过预设阈值，则确定存在与第一音频指纹匹配的第二音频指纹，解决了根据计算误差造成的匹配度确定第二音频指纹造成的节目识别有误的问题，达到了进一步提高节目识别的准确性的效果。

需要说明的是：上述实施例提供的节目识别装置在进行节目识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将节目识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的节目识别装置与节目识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种节目识别方法，其特征在于，所述方法包括：

获取对应于第一音频信号的第一音频指纹；

2.根据权利要求1所述的节目识别方法，其特征在于，所述在预设的音频指纹库中检测是否存在与所述第一音频指纹匹配的第二音频指纹，包括：

对于每一组第二音频指纹，计算所述第一音频指纹与所述第二音频指纹的匹配度；

确定与所述第一音频指纹具有最大匹配度的第二音频指纹；

检测所述第二音频指纹的最大匹配度是否超过预设阈值；

若检测结果为所述第二音频指纹的最大匹配度超过预设阈值，则确定存在与所述第一音频指纹匹配的第二音频指纹。

3.根据权利要求2所述的节目识别方法，其特征在于，所述第一音频信号包括至少一个第一峰值点，对应于所述第一音频信号的所述第一音频指纹包括至少一个待测二元组，每一个待测二元组包括一个第一峰值点的采集时间和对应于所述第一峰值点的哈希码；所述第二音频信号包括至少一个第二峰值点，对应于所述第二音频信号的所述第二音频指纹包括至少一个参考二元组，每一个参考二元组包括一个第二峰值点的采集时间和对应于所述第二峰值点的哈希码，则所述计算所述第一音频指纹与所述第二音频指纹的匹配度，包括：

对于每一个待测二元组和参考二元组，检测所述待测二元组的哈希码与所述参考二元组的哈希码是否相同；

若检测结果为所述待测二元组的哈希码与所述参考二元组的哈希码相同，则计算所述待测二元组的采集时间和所述参考二元组的采集时间的采集时差；

计算所述第一音频指纹与所述第二音频指纹中每一个所述采集时差的累计数；

确定所述累计数中的最大累计数，并将所述最大累计数确定为所述第一音频指纹与所述第二音频指纹的匹配度。

4.根据权利要求2或3所述的节目识别方法，其特征在于，所述计算所述第一音频指纹与所述第二音频指纹的匹配度之前，还包括：

在所述节目中获取预定时长的所述第二音频信号，所述预定时长为ΔT且所述预定时长的终点时刻为当前时刻T；

根据所述第二音频信号计算所述第二音频指纹；

将所述第二音频指纹以及所述第二音频指纹与所述节目的对应关系保存在所述音频指纹库中。

5.根据权利要求4所述的节目识别方法，其特征在于，所述根据所述第二音频信号计算所述第二音频指纹，包括：

从所述第二音频信号中提取至少一个所述第二峰值点，并获取每一个第二峰值点的采集时间和采集频率；

在预定范围内获取与所述第二峰值点匹配的配对峰值点的配对时间和配对频率；

计算所述采集时间与所述配对时间的时间差值和所述采集频率与所述配对频率的频率差值；

对于每一个第二峰值点，对与所述第二峰值点对应的所述采集频率、所述时间差值和所述频率差值进行哈希运算得到哈希值，并将所述哈希值确定为对应于所述第二峰值点的哈希码；

将每一个第二峰值点的采集时间和对应于所述第二峰值点的哈希码作为一个参考二元组进行保存，并将所述至少一个参考二元组作为所述第二音频指纹。

6.根据权利要求1所述的节目识别方法，其特征在于，所述第一音频信号为终端所处环境的音频信号，所述第二音频信号为直播节目的音频信号。

7.一种节目识别装置，其特征在于，所述装置包括：

获取模块，用于获取对应于第一音频信号的第一音频指纹；

8.根据权利要求7所述的节目识别装置，其特征在于，所述第一检测模块，包括：

第一计算单元，用于对于每一组第二音频指纹，计算所述第一音频指纹与所述第二音频指纹的匹配度；

第一确定单元，用于确定与所述第一音频指纹具有所述第一计算单元计算出的最大匹配度的第二音频指纹；

检测单元，用于检测所述第一确定单元确定的所述第二音频指纹的最大匹配度是否超过预设阈值；

第二确定单元，用于若所述检测单元检测的结果为所述第二音频指纹的最大匹配度超过预设阈值，则确定存在与所述第一音频指纹匹配的第二音频指纹。

9.根据权利要求8所述的节目识别装置，其特征在于，所述第一音频信号包括至少一个第一峰值点，对应于所述第一音频信号的所述第一音频指纹包括至少一个待测二元组，每一个待测二元组包括一个第一峰值点的采集时间和对应于所述第一峰值点的哈希码；所述第二音频信号包括至少一个第二峰值点，对应于所述第二音频信号的所述第二音频指纹包括至少一个参考二元组，每一个参考二元组包括一个第二峰值点的采集时间和对应于所述第二峰值点的哈希码，则所述第一计算单元，包括：

检测子单元，用于对于每一个待测二元组和参考二元组，检测所述待测二元组的哈希码与所述参考二元组的哈希码是否相同；

第一计算子单元，用于若所述检测子单元检测的结果为所述待测二元组的哈希码与所述参考二元组的哈希码相同，则计算所述待测二元组的采集时间和所述参考二元组的采集时间的采集时差；

第二计算子单元，用于计算所述第一计算子单元计算出的所述第一音频指纹与所述第二音频指纹中每一个所述采集时差的累计数；

第一确定子单元，用于确定所述第二计算子单元计算出的所述累计数中的最大累计数，并将所述最大累计数确定为所述第一音频指纹与所述第二音频指纹的匹配度。

10.根据权利要求8或9所述的节目识别装置，其特征在于，所述第一检测模块，还包括：

获取单元，用于所述第一计算单元计算所述第一音频指纹与所述第二音频指纹的匹配度之前，在所述节目中获取预定时长的所述第二音频信号，所述预定时长为ΔT且所述预定时长的终点时刻为当前时刻T；

第二计算单元，用于根据所述第一获取单元获取到的所述第二音频信号计算所述第二音频指纹；

保存单元，用于将所述第二计算单元计算出的所述第二音频指纹以及所述第二音频指纹与所述节目的对应关系保存在所述音频指纹库中。

11.根据权利要求10所述的节目识别装置，其特征在于，所述第二计算单元，包括：

第一获取子单元，用于从所述第二音频信号中提取至少一个所述第二峰值点，并获取每一个第二峰值点的采集时间的采集频率；

第二获取子单元，用于在预定范围内获取与所述第一获取子单元提取的所述第二峰值点匹配的配对峰值点的配对时间和配对频率；

第三计算子单元，用于计算所述第一获取子单元获取到的所述采集时间与所述第二获取子单元获取到的所述配对时间的时间差值和所述第一获取子单元获取到的所述采集频率与所述第二获取子单元获取到的所述配对频率的频率差值；

第四计算子单元，用于对于每一个第二峰值点，对与所述第二峰值点对应的所述第一获取子单元获取到的所述采集频率、所述第三计算子单元计算得到的所述时间差值和所述频率差值进行哈希运算得到哈希值，并将所述哈希值确定为对应于所述第二峰值点的哈希码；

第二确定子单元，用于将所述第一获取子单元获取到的每一个第二峰值点的采集时间和所述第四计算子单元计算出的对应于所述第二峰值点的哈希码作为一个参考二元组进行保存，并将所述至少一个参考二元组作为所述第二音频指纹。

12.根据权利要求7所述的节目识别装置，其特征在于，所述第一音频信号为终端所处环境的音频信号，所述第二音频信号为直播节目的音频信号。

13.一种服务器，其特征在于，所述服务器包括如权利要求7至12任一项所述的节目识别装置。