CN106162321A

CN106162321A - 一种声纹特征和音频水印相结合的音频信号识别方法

Info

Publication number: CN106162321A
Application number: CN201610788886.XA
Authority: CN
Inventors: 张涛; 余忠; 邱星华
Original assignee: Chengdu Broad Television Culture Communication Co Ltd
Current assignee: Chengdu Broad Television Culture Communication Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2016-11-23

Abstract

本发明公开了一种声纹特征和音频水印相结合的音频信号识别方法，解决了现有技术中音频识别不精确、使用范围窄,以及音视频内容的数字水印版权保护等问题。该声纹特征和音频水印相结合的音频信号识别方法包括：（1）样本来源；（2）对所述步骤（1）中的文件提取音频进行预处理，获得对应的频谱数据；（3）声纹特征提取；（4）声纹特征识别；根据需要还可包括数字水印生成和添加。本发明申请以声纹特征和音频数字水印相结合，在广播电视台实际环境经测试，无论广播、直播、录播以及会场均能对声音进行较好的识别。

Description

一种声纹特征和音频水印相结合的音频信号识别方法

技术领域

本发明属于音频信号识别技术领域，具体的说，是涉及一种声纹特征和音频水印相结合的音频信号识别方法及音视频内容的数字水印版权保护方法。

背景技术

现有技术中，有通过电视声音识别电视节目，如微信的摇电视，其技术实现主要倚靠声纹特征来对电视直播进行识别，该技术方案存在以下缺陷：在音量较小情况下无法准确识别。也有另一种技术方案，通过高频水印技术将包含数字水印的高频音频信号嵌入音频信号的包络中，实现隐藏高频信号的噪声干扰，通过校验技术将水印提取以验证音频是否被识别，如视淘，该技术方案存在以下缺陷：对硬件设备要求较高，适用于录播、点播视频等，对于直播信号无法有效处理。并且随着IPTV、OTT、网络直播、手机直播等应用的普及，存在大量的盗播、盗版行为，很难有效的追溯和进行版权保护。

发明内容

为了改善上述问题，本发明的目的在于提供一种以声纹特征和音频水印相结合，面向电视、广播等多媒体的音频信号识别方法。

为了实现上述目的，本发明采用的技术方案如下：

一种声纹特征和音频水印相结合的音频信号识别方法，包括以下步骤：

（1）样本来源：实时收录音视频直播流和保存点播视频文件或音频文件；或指定的需匹配的视频或音频文件；

（2）对所述步骤（1）中的文件提取音频进行预处理，获得对应的频谱数据；

（3）声纹特征提取：根据频谱数据进行声纹特征提取，所提取的声纹特征存入服务器端内存数据库，该声纹特征对应为该音视频文件或者直播频道；

（4）声纹特征识别，包括以下三种方式：

（a）音频声纹特征识别：客户端获取音频声纹特征数据，并将该音频特征数据通过声纹特征提取方法生成待识别的声纹特征，将待识别的声纹特征与服务器端内存数据库所存的声纹特征进行比对，通过对比得到识别结果；

（b）音频数字水印提取识别：客户端提取出音视频资源中的数字水印，通过数字水印识别出音视频文件或者直播频道；

（c）音频声纹特征识别与音频数字水印提取识别相结合。

进一步的，在所述步骤（1）之前还包括数字水印生成和添加：通过数字水印算法生成数字水印，并将生成的数字水印混入对应的音视频资源中并上传至播控系统，该数字水印对应将要使用的音视频文件或者直播频道。通过该步骤，可实现音视频内容的数字水印版权的保护。

进一步的，所述数字水印生成和添加如下：通过数字水印算法在18000–20000之间生成一个随机高频信号；数字水印的添加如下：将包含数字水印的高频信号通过音轨添加的方式在播控设备上植入到将要使用的音视频文件中。

进一步的，所述步骤（1）的具体方式如下：直播，远端编转码器将直播音频信号推送，通过部署在服务器上的收录程序对指定的直播音频流进行实时接收；点播，将点播的音视频文件上传至FTP服务器。

进一步的，所述步骤（2）中的预处理方式如下：直播，首先，将音频信号进行数字化处理，进行指定频率的数字采样，使音频信号转换为二进制数串；然后，将二进制数串进行短时傅立叶变换，获取到信号的频谱数据；

点播，获取点播的音视频文件的音频信号，将该音频信号转化为二进制数串；然后，将二进制数串进行短时傅立叶变换，获取到信号的频谱数据。

进一步的，所述步骤（4）中声纹特征提取如下：通过不同的音阶将所需的频率对应的坐标上的频谱数据提取出来，将提取的频谱数据进行极大值计算，获取到极大值对应的坐标，以极大值对应的坐标为依据，将指定范围内频率和时间进行hash计算生成30位特征值并存入内存数据库，该声纹特征对应为该音视频文件或者直播频道。

进一步的，所述（a）中音频声纹特征识别如下：客户端通过录音设备获取到音频数据上传至识别服务器，识别服务器将该音频数据进行重采样，重采样后的音频数据数字化处理后，通过声纹特征提取方法，将生成的声纹特征与数据库内所存的声纹特征进行比对，根据比对结果确定识别结果。

进一步的，所述（b）中数字水印的提取和识别如下：客户端通过录音设备将录音音频上传至识别服务器，通过提取算法将录音音频的高频信号提取出来，通过高频信号提取数字水印识别出音视频文件或者直播频道。

进一步的，所述（c）的具体实现方式如下：

音频声纹特征识别：客户端通过录音设备获取到音频数据上传至识别服务器，识别服务器将该音频数据进行重采样，重采样后的音频数据数字化处理后，通过声纹特征提取方法，将生成的声纹特征与数据库内所存的声纹特征进行比对，根据比对结果确定识别结果；

数字水印的提取和识别：客户端通过录音设备将录音音频上传至识别服务器，通过提取算法将录音音频的高频信号提取出来，通过高频信号提取数字水印识别出音视频文件或者直播频道；

将音频声纹特征识别和数字水印的提取和识别的识别结果进行综合比较分析，根据综合比较分析的结果确定识别结果，综合比较分析的方式可以设定不同的权值进行比较分析，其分析方式可以采用现有的分析方式。将两种方式识别的结果进行比较分析，一方面可以提高声纹识别准确率，一方面可以进行音视频内容的数字水印版权保护。

本发明与现有技术相比，具有以下优点及有益效果：

本发明将声纹特征和音频水印相结合应用于音频信号的识别方法中，与现有技术相比，本发明对声音识别的场景应用广泛，识别效率高，根据应用场景可以配置选择识别方法；另一方面，采用本发明能够提高传统电视的受众数量和时间，通过互动性与新媒体、互联网进行连通，以多种方式的互动增加传统媒体观众的粘度，提高对用户观看电视行为的统计和广告投放的精准度。此外，本发明将数字水印应用于音视频内容中，一方面可以结合声纹特征识别，提高声纹识别准确率，另一方面，可以实现对音视频内容的数字水印版权保护。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。

实施例

如图1所示，本实施例提供了一种声纹特征和音频水印相结合的音频信号识别方法，与现有技术不同的是，本方法将声纹特征和音频水印相结合，实现实时音频精确识别，本方法结合数字信号处理、计算机多媒体等技术来实现，主要应用于电视直播、视频播放、广播、音乐等含有音频载体的领域。

本方法的实现原理如下：通过收录服务器实时收录直播流和保存点播视频文件，经过对视频的音频预处理，获取到所需数字音频信号，可通过声纹特征提取算法提取声纹特征和数字水印算法生成数字水印，1.所提取的声纹特征可存储在内存数据库中以提高识别结果比对的实时响应；2.将生成的数字水印混入指定的音视频资源中并上传至播控系统。

具体的说，本方法主要包括：

一、实时收录直播流和保存点播视频文件

对于直播场景：远端编转码器将直播音频信号推送，通过部署在服务器上的收录程序对指定的直播音频流进行实时接收；对于点播场景：将音视频文件上传至FTP服务器。

二、对视频的音频进行预处理，获得对应的频谱数据

对于直播场景：在收录直播音频的同时，异步对该流数据进行数字化处理，进行44100/48000等指定频率的数字采样，使音频信号转换为二进制数串；对于点播场景：通过软件获取其音频信号,以该信号采样为准将其转为数字信号--即一连串的二进制数串；

在获得二进制数串后，将该数串进行数字信号处理。主要是将该数字信号进行短时傅立叶变换，为保证在所需的帧内能够清晰的分辨处频域特征，其中需要确定所需的短时帧长度，窗函数的选取可选择汉明窗或者汉宁窗，窗口大小及平滑度的选取，采样频率可选择对应信号的采样率。由短时傅立叶变换获取到信号的频谱数据。

三、声纹特征提取

根据频谱数据进行声纹特征提取，所提取的声纹特征存入内存数据库，该声纹特征对应为该音视频文件或者直播频道；具体的，通过不同的音阶将所需的频率对应的坐标上的频谱数据提取出来，将提取的频谱数据进行极大值计算，获取到极大值对应的坐标，以极大值对应的坐标为依据，将指定范围内频率和时间进行hash计算生成30位特征值并存入内存数据库，该声纹特征对应为该音视频文件或者直播频道。

四、声纹特征识别

客户端获取音频数据，并将该音频数据通过声纹特征提取方法生成待识别的声纹特征，将待识别的声纹特征与内存数据库所存的声纹特征进行比对，通过对比得到识别结果。具体的说，客户端通过录音设备获取到音频数据上传至识别服务器，识别服务器将该音频数据进行重采样，重采样后的音频数据数字化处理后，通过声纹特征提取方法，将生成的声纹特征与数据库内所存的声纹特征进行比对。

本实施例在进一步的优选方案中，比对中使用了数据库桶技术，减少了匹配的时间复杂度，增大了碰撞机率，快速匹配后将会获取到相应的识别结果。

五、数字水印生成和添加

通过数字水印算法生成数字水印，并将生成的数字水印混入对应的音视频资源中并上传至播控系统，该数字水印对应将要使用的音视频文件或者直播频道；具体的说，数字水印生成如下：通过数字水印算法在18000–20000之间生成一个随机高频信号；数字水印的添加如下：将包含数字水印的高频信号通过音轨添加的方式在播控设备上植入到将要使用的音视频文件中。

六、数字水印提取和识别

客户端通过录音设备将录音音频上传至识别服务器，识别程序根据提取算法将录音音频的高频信号提取出来，通过比对提取出来的数字水印可获得对应的所识别出的音视频节目或频道，返回结果。

本发明申请以声纹特征和音频数字水印相结合，在电视台实际环境经测试，无论广播、直播、录播以及会场均能对声音进行较好的识别。

本发明申请中所涉及到的算法、比对分析方法均为现有技术，本领域技术人员可以根据实际的需求，选择匹配的技术手段。

按照上述实施例，便可很好地实现本发明。值得说明的是，基于上述结构或方法设计的前提下，为解决同样的技术问题，即使在本发明上做出的一些无实质性的改动或润色，所采用的技术方案的实质仍然与本发明一样，故其也应当在本发明的保护范围内。

Claims

1.一种声纹特征和音频水印相结合的音频信号识别方法，其特征在于，包括以下步骤：

（4）声纹特征识别，包括以下三种方式：

（c）音频声纹特征识别与音频数字水印提取识别相结合。

2.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，在所述步骤（1）之前还包括数字水印生成和添加：通过数字水印算法生成数字水印，并将生成的数字水印混入对应的音视频资源中并上传至播控系统，该数字水印对应将要使用的音视频文件或者直播频道。

3.根据权利要求2所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述数字水印生成和添加的具体实现如下：通过数字水印算法在18000–20000之间生成一个随机高频信号；数字水印的添加如下：将包含数字水印的高频信号通过音轨添加的方式在播控设备上植入到将要使用的音视频文件中。

4.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述步骤（1）的具体方式如下：直播，远端编转码器将直播音频信号推送，通过部署在服务器上的收录程序对指定的直播音频流进行实时接收；点播，将点播的音视频文件上传至FTP服务器。

5.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述步骤（2）中的预处理方式如下：直播，首先，将音频信号进行数字化处理，进行指定频率的数字采样，使音频信号转换为二进制数串；然后，将二进制数串进行短时傅立叶变换，获取到信号的频谱数据；

6.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述步骤（4）中声纹特征提取如下：通过不同的音阶将所需的频率对应的坐标上的频谱数据提取出来，将提取的频谱数据进行极大值计算，获取到极大值对应的坐标，以极大值对应的坐标为依据，将指定范围内频率和时间进行hash计算生成30位特征值并存入内存数据库，该声纹特征对应为该音视频文件或者直播频道。

7.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述（a）中音频声纹特征识别如下：客户端通过录音设备获取到音频数据上传至识别服务器，识别服务器将该音频数据进行重采样，重采样后的音频数据数字化处理后，通过声纹特征提取方法，将生成的声纹特征与数据库内所存的声纹特征进行比对，根据比对结果确定识别结果。

8.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述（b）中数字水印的提取和识别如下：客户端通过录音设备将录音音频上传至识别服务器，通过提取算法将录音音频的高频信号提取出来，通过高频信号提取数字水印识别出音视频文件或者直播频道。

9.根据权利要求1所述的声纹特征和音频水印相结合的音频信号识别方法，其特征在于，所述（c）的具体实现方式如下：

将音频声纹特征识别和数字水印的提取和识别的识别结果进行综合比较分析，根据综合比较分析的结果确定识别结果。