CN102143001B

CN102143001B - 一种基于语义理解的音频资源管理方法

Info

Publication number: CN102143001B
Application number: CN2011100831317A
Authority: CN
Inventors: 邢玲; 张琦; 马强; 马建国; 朱敏
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2011-04-02
Filing date: 2011-04-02
Publication date: 2013-10-09
Anticipated expiration: 2031-04-02
Also published as: CN102143001A

Abstract

本发明公开了一种语义理解的音频资源管理方法，借助于语义标引信息对音频资源从源端到终端整个过程进行管理，具有简单易行、方便可靠等优点；在网络源端将语义标引信息作为语义水印嵌入到音频资源中，使音频资源与其语义标引信息融合为一体，在网络中进行传输，有效地防止了语义标引信息的丢失，并能完整的恢复出音频语义信息。在用户终端通过音频资源的语义解析，恢复出语义标引信息，根据语义标引信息初步过滤，然后对接收到的音频资源用三阶张量表示，然后计算它们之间的张量语义离散度，根据张量语义离散度对接收到音频资源进行分类管理，有效的克服了向量模型维度灾难，语义丢失等问题，能更加精确的对音频资源进行分类，给用户提供质量更高的服务。

Description

一种基于语义理解的音频资源管理方法

技术领域

本发明属于音频资源管理技术领域，更为具体地讲，在音频资源进行语义理解的基础上，建立一种高效的统一的音频资源管理机制，该管理机制具有可管、可控、可信并充分满足用户需求的特点。

背景技术

随着因特网的日益普及和音频压缩技术的飞速发展，以音乐为主的音频资源在互联网上的交流达到了前所未有的深度和广度，其发布形式也愈加丰富。

音频资源承载着丰富的信息内容，但现有技术的音频资源除了含有采样频率、量化精度、编码方法等有限的注册信息外，其本身仅仅是一种非语义符号表示和非结构化的二进制流，缺乏资源的语义描述。虽然已经有很多组织和机构投入到了此方面的研究，但目前为止还有没有一个统一的标准，因而对音频资源进行准确有效的管理和访问变得十分艰难。随着音频资源和用户数量的日益增多，现有的音频资源在源端标引、网络传输和终端解析均存在内容管理混乱、分级管理不完善和用户需求无法满足等诸多问题。究其原因是忽略了音频资源的语义，没有建立简单有效的语义标引及语义解析、理解机制而导致音频资源管理机制的不理想。

音频资源的语义标引及基于语义理解的音频资源管理近年来逐渐成为研究热点，语义标引是指对所收集到的信息单元，如音频资源给出规范化标识的过程，这些标识可以为标题、作者名、主题词等。通过语义标引，音频资源被整理为特征明显、便于检索和利用的数据记录。

活动图像专家组(Moving Picture Group，简称MPEG)制定了MPEG-7标准，它是第一个体现音视频资源信息内容，即语义标引技术的标准，可以对音频资源的多种特征进行标识，但是它并没有将音频流的分段技术以及对音频资源的特征提取作为自己的一部分，没有对音频资源进行语义解释。美国的MuscleFish公司对带标识的数据进行加窗处理，对每帧数据提取音调、响度、带宽、能量等13个特征，则此13维特征即为音频资源的特征矢量，检索时采用马氏距离，比较样本特征矢量与库中数据的特征矢量，从而输出检索结果。大多数研究者通过分析音频资源底层频谱特征(如MFCC等)，将这些特征映射为高层语义标引，这种方法所需计算量大，过程复杂，没有很好的实际应用效果。

相比之下，国内对这方面的研究起步较晚，但已引起广泛的关注和重视。浙江大学人工智能研究所对基于内容的音频检索、广播新闻分割等领域进行了深入的研究，在国内处于领先地位。中科院中科信利语音实验室推出了基于分布式群架构的语音处理平台TSE，主要功能模块包括：语音识别、歌词检索、旋律识别及特定网站语音搜索等。清华大学对新闻的分段、音乐分类和音乐检索分类方法进行了研究，还有很多国内外的机构都致力于此项技术的开发研究，但都不同程度的存在着诸如算法处理速度慢、漏检误检率高、检索效果无评价标准、缺少支持多种检索手段等问题。而且没有从用户的角度定义其语义字段，分析语义元素，因而对用户也就缺少普通实用价值。

为了解决语义标引在网络中传输的问题，目前国内外普遍采用的都是将语义标引作为一个单独的头部文件实现在网络中的传输，这种方法容易丢失语义标引，而且一旦丢失，不易恢复。

综上，尽管音频资源的语义标引和基于语义理解的音频资源管理机制在不断的演进，但仍然缺乏简单有效的、系统的整体设计，不管是实现的复杂性还是研究的可行性都存在明显的不足。因此，需要寻求行之有效的解决方案。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于语义理解的音频资源管理方法，以解决网络中音频资源无法有效、可行地进行管理的难题，

为实现上述目的，本发明基于语义理解的音频资源管理方法，其特征在于，包括以下步骤：

(1)、在网络源端对音频资源进行资源整合

在对音频资源进行语义理解的基础上实现语义标引，从而生成该音频资源的语义标引信息；所述的语义标引是指对音频资源的语义进行多维度的标引，使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源；

将音频资源的语义标引信息作为语义水印嵌入到音频资源中，得到带有语义标引信息的音频资源；

(2)、网络源端发送带有语义标引信息的音频资源给用户终端；

(3)、用户终端对接收到的带有语义标引信息的音频资源进行语义解析，并对解析出的语义标引信息进行一个初步的过滤，以此判断是否将接收到的音频资源在本地储存；

所述的语义解析是指提取嵌入到音频资源中的语义水印，恢复成对音频资源进行多维度标引的语义标引信息；所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存；

(4)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示，然后计算它们之间的语义关联度，即张量语义离散度(Tensor SemanticDispersion，简称TSD)，最后，根据张量语义离散度对接收到音频资源进行分类管理。

与现有技术相比，本发明有以下优点：

本发明基于语义理解的音频资源管理方法借助于语义标引信息对音频资源从源端到终端整个过程进行管理，具有简单易行、方便可靠等优点；

本发明在网络源端将语义标引信息作为语义水印嵌入到音频资源中，使音频资源与其语义标引信息融合为一体，在网络中进行传输，有效地防止了语义标引信息的丢失，并能完整的恢复出音频语义信息。

本发明在用户终端通过音频资源的语义解析，恢复出语义标引信息，根据语义标引信息初步过滤，然后对接收到的音频资源用三阶张量表示，然后计算它们之间的张量语义离散度，根据张量语义离散度对接收到音频资源进行分类管理，有效的克服了向量模型维度灾难，语义丢失等问题，能更加精确的对音频资源进行分类，给用户提供质量更高的服务。

附图说明

图1是本发明基于语义理解的音频资源管理方法一种具体实施方式流程图；

图2是图1所示的语义标引信息嵌入过程示意图；

图3是图1所示的语义标引信息的解析和音频资源的初步过滤流程图；

图4是图1所示的张量语义离散度的计算流程和音频资源的分类流程图；

图5是两种自动分类算法对四组不同语义的ROC曲线对比图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

如图1所示，在本实施例中，基于语义理解的音频资源管理方法包括以下步骤：

步骤ST101：语义标引信息的生成

在网络源端，在对音频资源进行语义理解的基础上，对音频资源的语义进行多维度的标引，生成该音频资源的语义标引信息，生成的语义标引信息能够全方位地具体地反应一个特定的音频资源。

传统的标引是基于关键字对内容标题进行标引，而不是对其内容本身，忽略了概念层面或语义层面的含义，很难全面的对其内容进行揭示。

在本实施例中，语义标引从内容属性上对音频资源进行语义理解和特征提取过程，它的目的是揭示音频资源的内容特征，便于集中同类的内容，区分不同的内容，为相关内容建立联系，提高音频资源的管理和利用率。

表1是语义标引信息的一个实例

表1

在本实施例中，语义标引信息有17个语义，分为三大类：

由资源类型、分级、标准、文件长度、文件大小以及语言等6个元素组成的外部属性信息；

由艺术家、出版者、日期、标题以及专辑等5个元素组成的版权管理信息；

由音色、旋律、流派、情感、乐器以及描述等6个元素组成的本征语义信息。

从表1，我们可以看出，语义标引信息从多维度对音频资源的内容进行了标引，基本上全方位地详细地反应了音频资源所要传达的信息。

步骤ST102：语义标引信息的嵌入

将音频资源的语义标引信息作为语义水印嵌入到音频资源中，得到带有语义标引信息的音频资源。

在本发明中，将音频资源的语义标引信息作为语义水印嵌入到音频资源中，这样做有三个明显的优点：一是语义标引信息和音频资源为一体化传输，不容易丢失，且能较容易的恢复出完整的语义标引信息；二是嵌入的语义标引信息具有透明性，不对音频资源的声音质量产生可听到的失真；三是嵌入的语义标引信息具有较强的鲁棒性，能抵御对音频资源的压缩、滤波、重采样、重量化、剪切、加噪声等一般信号处理操作。这样不仅实现了语义标引信息在网络中的有效传输，而且在网络传输过程中管理者可通过语义水印方便有效地对音频资源进行管理和实时监控。

图2是图1所示的语义标引信息嵌入过程示意图。

在本实施例中，如图1所示，根据嵌入的信息不同，分为两个不同的水印，一个为语义标引信息构成的语义水印，利用语义水印可以实现传输过程中的音频资源的版权保护和内容保护。通过对语义水印进行检测和监督，对不同的音频资源实现业务区分和服务区分。另一个为音频资源的传输优先级信息构成的传输优先级水印，通过用户对不同音频资源的不同需求程度，将音频资源的传输优先级分为高，中，低三个级别，在网络传输时，将解析出音频资源的传输优先级，传输优先级越高的音频资源将优先传输，这样可以在一定程度上解决带宽拥堵的问题，提高音频资源的传输效率。在音频资源中嵌入两个不同的水印，不仅能更好的协调鲁棒性和不可听性，而且不同的语义信息发挥出不同的作用，提高了效率。

对于音频，其关键技术是基于有损压缩的音频编码技术，相比直接将水印嵌入到音频流或者编码后的比特流中，将水印直接嵌入在编码阶段的变化域中的量化系数中可以更好的通过水印算法与音频编码相结合，能更为准确地控制语义水印以及传输优先级水印的调制，同时又保持较强的鲁棒性。因此在本实施例中，将语义水印以及传输优先级水印嵌入在音频资源的编码阶段，兼顾鲁棒性和不可听性，将音频编码中的压缩系数与水印参数之间进行优化匹配，在压缩编码的同时嵌入了水印。其具体步骤如下：

步骤ST1021：对音频资源的每一帧音频信号进行子带滤波；

步骤ST1022：对子带滤波后的音频信号进行MDCT变换；

步骤ST1023：量化MDCT系数；

步骤ST1024：选取合适的MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置；

MDCT域中的高频系数含能量少，在此嵌入水印对听觉质量非常有利，但音频信号的高频区对常见的信号处理和噪声比较敏感，因此水鲁棒性较差。MDCT域中的低频系数含有较多的信号能量，在此嵌入水印则鲁棒性较好，但容易导致信号失真，影响听觉质量。因此，需选择合适的嵌入位置，最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性。

步骤ST1025：将语义标引信息进行预处理，得到含有语义标引信息的随机序列；

步骤ST1026：将音频资源的传输优先级信息进行预处理，得到含有对音频资源不同的传输优先级的随机序列。

步骤ST1027：将步骤ST1025、步骤ST1026得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤ST1024选出的最优位置，得到带有语义标引信息和传输优先级的音频资源。

图3是图1所示的语义标引信息的解析和音频资源的初步过滤流程图。

在本实施例中，如图3所示，用户终端接收到经过网络传输层来的包含语义标引信息的音频资源，需要对其进行语义解析，并根据解析出的语义标引信息对音频资源进行初步的过滤，步骤如下：

步骤ST301：根据选则最优嵌入位置的方法的逆运算，在接收到的带有语义标引信息的音频资源中，找到语义水印的嵌入位置，提取出包含语义标引信息的随机序列；

步骤ST302：根据产生随机序列采取的伪随机处理方法，对包含语义标引信息的随机序列进行逆变换，将提取的随机序列恢复成语义标引信息；

步骤ST303：检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存。若本地文件中没有该语义标引信息或者不完全，则将该信息储存到本地文件中，刷新本地存储，实现对音频资源的初步过滤，对音频文件进行管理。

图4是图1所示的张量语义离散度的计算流程和音频资源的分类流程图。

如图4所示，在本实施例中，利用已解析出的语义标引信息，进行张量语义离散度计算，张量语义离散度计算的目的是实现音频分类，方便对音频资源管理，更好的给用户提供主动服务。

目前对音频资源进行分类的方法都是简单的将某一个单一的文本元数据构造为向量模型，这不仅会产生高维向量而导致的“维度灾难”问题，同时，在降维过程中，由于特征维度过高及训练样本的数据不足，将不同类型特征进行拼合会引起“过压缩”问题，以致丢失大量信息。为了克服上述问题，在本发明中，采用张量语义离散度计算，通过计算各音频资源的张量语义离散度(TensorSemantic Dispersion，简称TSD)来完成对音频资源的分类。为有效地根据张量语义离散度对接收到音频资源进行分类管理，构建了RBF张量神经网络(RadicalBasis Function Tensor Neural Network，RBFTNN)，实现音频资源的自动分类。具体步骤如下：

步骤ST401：将接收到各个音频资源的语义标引信息用三阶张量

表示，其中I₁、I₂、I₃分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数，则所有的接收到音频数据集合X＝{X₁，X₂，...，X_n}都在此张量空间内；

步骤ST402：对所有的音频资源类别，在张量语义离散度计算中，定义音频资源属于同一类别的类内语义离散度为α，属于不同类别的类间语义离散度为β；

步骤ST403：满足类内语义离散度α最小，类间语义离散度β最大时的类别信息作为TSD，即张量语义离散度经验知识；

步骤ST404：将所得到的TSD经验知识初始化RBF张量神经网络(RadicalBasis Function Tensor Neural Network，简称RBFTNN)模型，并确定网络拓扑结构中权值和隐层神经元的个数；

步骤ST405：利用RBFTNN算法将得到张量语义离散度经验知识作为样本数据进行迭代训练，完成RBFTNN分类模型建立，并存入RBFTNN模型库，以用于对资源信息的自动分类。

步骤ST406：针对任一需找出目标类别的音频语义资源，用模型库中的RBFTNN模型寻找资源目标输出。若能找出分类目标，返回目标类别，若不能，则对该类新音频资源重新执行离散度分类及RBFTNN模型建立的过程，并最终更新模型库。

分类实例

在本实例中，音频资源均采用音乐。对1000首音乐的15个语义信息进行标引，这些语义信息包括外部属性信息：压缩标准、演唱者的性别、语言、文件大小；版权管理信息：作曲者、作词者、出版者、演唱者、专辑名和标题；本征语义信息：情感、评论、乐器、旋律、流派。此三组标引信息分别对应了三阶张量的三个阶。

对该1000首标引音乐，计算各自的张量语义离散度，得到类内语义离散度α最小，类间语义离散度β最大时的类别信息作为TSD，即张量语义离散度经验知识，利用RBF张量神经网络算法进行自动分类。

在本实例中，采用查准率、查全率来说明分类性能，其中，查准率为待分类音乐中属于正确目标类别的音乐所占比例大小，而查全率为包含正确目标类别音乐所占实际存在且满足目标要求的音乐比例大小。

考虑到采用语义个数不同将影响分类的正确率，通过与典型的混合高斯模型(GMM)作为分类对比方案并进行多次试验表明，当采用四个语义时两种算法的分类效果最佳，其中所采用不同四个语义的组合如表2所示。

	对应四个语义
		四个语义1(FS1)	流派、情感、语言和标题
四个语义2(FS2)	作曲者、出版者、演唱者和专辑名
		四个语义3(FS3)	压缩标准、演唱者性别、语言和文件大小
四个语义4(FS4)	乐器、情感、专辑名和演唱者

表2

考虑到语义组合FS1到FS4的分类效果几乎相同，在本实例中仅给出了语义组合FS1的分类结果如表2所示：

	本实例中的算法查准率	GMM算法查准率
			查全率0.3	0.75	0.45
查全率0.4	0.7	0.42
			查全率0.5	0.68	0.41
查全率0.6	0.65	0.4
			查全率0.7	0.6	0.35
查全率0.8	0.58	0.34
			查全率0.9	0.5	0.28

表3

由表3可知，当查全率相同的情况下，本实施例中的算法的查准率比GMM的查准率提高了至少20个百分点，即证明本实施例中算法具有较好分类能力。为建立自动分类模型，记录上述离散度分类仿真所形成的音频资源及对应类别信息，并作为RBFTNN训练的经验样本。

根据上述仿真可知该1000首音乐中包含四个类别，且每个类别中的音频个数分别为164、159、452和225。在RBFTNN模型建立过程中，当对其中一类进行资源分类时，该类为目标类，其余音频资源为非目标类。

经神经网络训练并逐步迭代后，建立基于离散度的RBFTNN(TSD+RBFTNN)模型。用ROC曲线来该模型的分类准确性和有效性，其中，实际正例数P＝TP+FN，即目标类别的样本个数；实际负例数N＝FP+TN，即非目标类别样本个数；其中，T表示Ture，F表示False，实例总数C＝P+N；则有查准率＝TP/TP+TN，查全率＝TP/P。ROC曲线中定义两个概念，错误的正例率(FPR)FPR＝FP/N；正确的正例率(TPR)TPR＝TP/P。为了更好的对比本发明方法的性能，与基于离散度的支持向量机SVM(TSD+SVM)自动分类模型作比较，其仿真结果如图5所示。

图5中a、b、c和d分别给出了语义组合FS1、FS2、FS3和FS4的ROC曲线，图中，横坐标表示FPR，即异常点接受的情况(outliers accepted)；纵坐标表示TPR，即目标点的接受(targets accepted)；虚线和实线分别表示采用TSD+SVM和TSD+RBFTNN两种方法进行多语义分类检索的ROC曲线。从图a～d中可看出，实线更接近单位方形的左上角，即对TSD分类经验知识，进行SVM训练得到的分类器的结果在性能上远不如本发明提出的RBFTNN的分类精度。其中，图c、d的效果尤其明显，当FPR值大于0.4时，TSD+SVM分类准确率才能达到50％以上，而本实施例中方法的准确率至少为95％。因此，针对不同的多语义分类检索问题，TSD+RBFTNN方法具有较强的自动分类能力。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于语义理解的音频资源管理方法，其特征在于，包括以下步骤：

（1）、在网络源端对音频资源进行资源整合

将音频资源的语义标引信息和音频资源的传输优先级作为语义水印嵌入到音频资源中，得到带有语义标引信息和传输优先级的音频资源；

（2）、网络源端发送带有语义标引信息和传输优先级的音频资源给用户终端；

（3）、用户终端对接收到的带有语义标引信息和传输优先级的音频资源进行语义解析，并对解析出的语义标引信息进行一个初步的过滤，以此判断是否将接收到的音频资源在本地储存；

（4）、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示，然后计算它们之间的语义关联度即张量语义离散度，最后，根据张量语义离散度对接收到音频资源进行分类管理；

所述的步骤（1）的嵌入为：

步骤ST1021：对音频资源的每一帧音频信号进行子带滤波；

步骤ST1022：对子带滤波后的音频信号进行改进离散余弦变换MDCT；

步骤ST1023：量化改进离散余弦变换MDCT系数；

步骤ST1024：选取合适的改进离散余弦变换MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置；

MDCT系数的选择应最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性；

步骤ST1026：将音频资源的传输优先级信息进行预处理，得到含有对音频资源不同的传输优先级的随机序列；

步骤ST1027：将步骤ST1025、步骤ST1026得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤ST1024选出的最优位置，得到带有语义标引信息和传输优先级的音频资源；

所述的步骤（4）为：

表示，其中I₁、I₂、I₃分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数，则所有的接收到音频数据集合X={X₁,X₂,…,X_n}都在此张量空间内；

步骤ST402：对所有的音频资源类别，在张量语义离散度计算中，定义音频资源属于同一类别的离散度为类内语义离散度α，属于不同类别的离散度为类间语义离散度β；

步骤ST403：满足类内语义离散度α最小，类间语义离散度β最大时的类别信息作为张量语义离散度经验知识；

步骤ST404：将所得到的张量语义离散度经验知识初始化径向基函数张量神经网络模型，并确定网络拓扑结构中权值和隐层神经元的个数；

步骤ST405：利用径向基函数张量神经网络算法将得到张量语义离散度经验知识作为样本数据进行迭代训练，完成径向基函数张量神经网络分类模型建立，并存入径向基函数张量神经网络模型库，以用于对资源信息的自动分类；

步骤ST406：针对任一需找出目标类别的音频语义资源，用模型库中的径向基函数张量神经网络模型寻找资源目标输出，若能找出分类目标，返回目标类别，若不能，则对该类新音频资源重新执行离散度分类及径向基函数神经网络模型建立的过程，并最终更新模型库。

2.根据权利要求1所述的基于语义理解的音频资源管理方法，其特征在于，所述的步骤（3）具体为：

步骤ST303：检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同，如果相同，则放弃接收到音频资源，如果不同，则将接收到的音频资源在本地储存；若本地文件中没有该语义标引信息或者不完全，则将该信息储存到本地文件中，刷新本地存储，实现对音频资源的初步过滤，对音频文件进行管理。