CN102143001B - 一种基于语义理解的音频资源管理方法 - Google Patents

一种基于语义理解的音频资源管理方法 Download PDF

Info

Publication number
CN102143001B
CN102143001B CN2011100831317A CN201110083131A CN102143001B CN 102143001 B CN102143001 B CN 102143001B CN 2011100831317 A CN2011100831317 A CN 2011100831317A CN 201110083131 A CN201110083131 A CN 201110083131A CN 102143001 B CN102143001 B CN 102143001B
Authority
CN
China
Prior art keywords
semantic
audio resource
index information
audio
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100831317A
Other languages
English (en)
Other versions
CN102143001A (zh
Inventor
邢玲
张琦
马强
马建国
朱敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN2011100831317A priority Critical patent/CN102143001B/zh
Publication of CN102143001A publication Critical patent/CN102143001A/zh
Application granted granted Critical
Publication of CN102143001B publication Critical patent/CN102143001B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语义理解的音频资源管理方法,借助于语义标引信息对音频资源从源端到终端整个过程进行管理,具有简单易行、方便可靠等优点;在网络源端将语义标引信息作为语义水印嵌入到音频资源中,使音频资源与其语义标引信息融合为一体,在网络中进行传输,有效地防止了语义标引信息的丢失,并能完整的恢复出音频语义信息。在用户终端通过音频资源的语义解析,恢复出语义标引信息,根据语义标引信息初步过滤,然后对接收到的音频资源用三阶张量表示,然后计算它们之间的张量语义离散度,根据张量语义离散度对接收到音频资源进行分类管理,有效的克服了向量模型维度灾难,语义丢失等问题,能更加精确的对音频资源进行分类,给用户提供质量更高的服务。

Description

一种基于语义理解的音频资源管理方法
技术领域
本发明属于音频资源管理技术领域,更为具体地讲,在音频资源进行语义理解的基础上,建立一种高效的统一的音频资源管理机制,该管理机制具有可管、可控、可信并充分满足用户需求的特点。
背景技术
随着因特网的日益普及和音频压缩技术的飞速发展,以音乐为主的音频资源在互联网上的交流达到了前所未有的深度和广度,其发布形式也愈加丰富。
音频资源承载着丰富的信息内容,但现有技术的音频资源除了含有采样频率、量化精度、编码方法等有限的注册信息外,其本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏资源的语义描述。虽然已经有很多组织和机构投入到了此方面的研究,但目前为止还有没有一个统一的标准,因而对音频资源进行准确有效的管理和访问变得十分艰难。随着音频资源和用户数量的日益增多,现有的音频资源在源端标引、网络传输和终端解析均存在内容管理混乱、分级管理不完善和用户需求无法满足等诸多问题。究其原因是忽略了音频资源的语义,没有建立简单有效的语义标引及语义解析、理解机制而导致音频资源管理机制的不理想。
音频资源的语义标引及基于语义理解的音频资源管理近年来逐渐成为研究热点,语义标引是指对所收集到的信息单元,如音频资源给出规范化标识的过程,这些标识可以为标题、作者名、主题词等。通过语义标引,音频资源被整理为特征明显、便于检索和利用的数据记录。
活动图像专家组(Moving Picture Group,简称MPEG)制定了MPEG-7标准,它是第一个体现音视频资源信息内容,即语义标引技术的标准,可以对音频资源的多种特征进行标识,但是它并没有将音频流的分段技术以及对音频资源的特征提取作为自己的一部分,没有对音频资源进行语义解释。美国的MuscleFish公司对带标识的数据进行加窗处理,对每帧数据提取音调、响度、带宽、能量等13个特征,则此13维特征即为音频资源的特征矢量,检索时采用马氏距离,比较样本特征矢量与库中数据的特征矢量,从而输出检索结果。大多数研究者通过分析音频资源底层频谱特征(如MFCC等),将这些特征映射为高层语义标引,这种方法所需计算量大,过程复杂,没有很好的实际应用效果。
相比之下,国内对这方面的研究起步较晚,但已引起广泛的关注和重视。浙江大学人工智能研究所对基于内容的音频检索、广播新闻分割等领域进行了深入的研究,在国内处于领先地位。中科院中科信利语音实验室推出了基于分布式群架构的语音处理平台TSE,主要功能模块包括:语音识别、歌词检索、旋律识别及特定网站语音搜索等。清华大学对新闻的分段、音乐分类和音乐检索分类方法进行了研究,还有很多国内外的机构都致力于此项技术的开发研究,但都不同程度的存在着诸如算法处理速度慢、漏检误检率高、检索效果无评价标准、缺少支持多种检索手段等问题。而且没有从用户的角度定义其语义字段,分析语义元素,因而对用户也就缺少普通实用价值。
为了解决语义标引在网络中传输的问题,目前国内外普遍采用的都是将语义标引作为一个单独的头部文件实现在网络中的传输,这种方法容易丢失语义标引,而且一旦丢失,不易恢复。
综上,尽管音频资源的语义标引和基于语义理解的音频资源管理机制在不断的演进,但仍然缺乏简单有效的、系统的整体设计,不管是实现的复杂性还是研究的可行性都存在明显的不足。因此,需要寻求行之有效的解决方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于语义理解的音频资源管理方法,以解决网络中音频资源无法有效、可行地进行管理的难题,
为实现上述目的,本发明基于语义理解的音频资源管理方法,其特征在于,包括以下步骤:
(1)、在网络源端对音频资源进行资源整合
在对音频资源进行语义理解的基础上实现语义标引,从而生成该音频资源的语义标引信息;所述的语义标引是指对音频资源的语义进行多维度的标引,使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源;
将音频资源的语义标引信息作为语义水印嵌入到音频资源中,得到带有语义标引信息的音频资源;
(2)、网络源端发送带有语义标引信息的音频资源给用户终端;
(3)、用户终端对接收到的带有语义标引信息的音频资源进行语义解析,并对解析出的语义标引信息进行一个初步的过滤,以此判断是否将接收到的音频资源在本地储存;
所述的语义解析是指提取嵌入到音频资源中的语义水印,恢复成对音频资源进行多维度标引的语义标引信息;所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存;
(4)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示,然后计算它们之间的语义关联度,即张量语义离散度(Tensor SemanticDispersion,简称TSD),最后,根据张量语义离散度对接收到音频资源进行分类管理。
与现有技术相比,本发明有以下优点:
本发明基于语义理解的音频资源管理方法借助于语义标引信息对音频资源从源端到终端整个过程进行管理,具有简单易行、方便可靠等优点;
本发明在网络源端将语义标引信息作为语义水印嵌入到音频资源中,使音频资源与其语义标引信息融合为一体,在网络中进行传输,有效地防止了语义标引信息的丢失,并能完整的恢复出音频语义信息。
本发明在用户终端通过音频资源的语义解析,恢复出语义标引信息,根据语义标引信息初步过滤,然后对接收到的音频资源用三阶张量表示,然后计算它们之间的张量语义离散度,根据张量语义离散度对接收到音频资源进行分类管理,有效的克服了向量模型维度灾难,语义丢失等问题,能更加精确的对音频资源进行分类,给用户提供质量更高的服务。
附图说明
图1是本发明基于语义理解的音频资源管理方法一种具体实施方式流程图;
图2是图1所示的语义标引信息嵌入过程示意图;
图3是图1所示的语义标引信息的解析和音频资源的初步过滤流程图;
图4是图1所示的张量语义离散度的计算流程和音频资源的分类流程图;
图5是两种自动分类算法对四组不同语义的ROC曲线对比图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
如图1所示,在本实施例中,基于语义理解的音频资源管理方法包括以下步骤:
步骤ST101:语义标引信息的生成
在网络源端,在对音频资源进行语义理解的基础上,对音频资源的语义进行多维度的标引,生成该音频资源的语义标引信息,生成的语义标引信息能够全方位地具体地反应一个特定的音频资源。
传统的标引是基于关键字对内容标题进行标引,而不是对其内容本身,忽略了概念层面或语义层面的含义,很难全面的对其内容进行揭示。
在本实施例中,语义标引从内容属性上对音频资源进行语义理解和特征提取过程,它的目的是揭示音频资源的内容特征,便于集中同类的内容,区分不同的内容,为相关内容建立联系,提高音频资源的管理和利用率。
表1是语义标引信息的一个实例
Figure GDA0000060817620000041
Figure GDA0000060817620000051
表1
在本实施例中,语义标引信息有17个语义,分为三大类:
由资源类型、分级、标准、文件长度、文件大小以及语言等6个元素组成的外部属性信息;
由艺术家、出版者、日期、标题以及专辑等5个元素组成的版权管理信息;
由音色、旋律、流派、情感、乐器以及描述等6个元素组成的本征语义信息。
从表1,我们可以看出,语义标引信息从多维度对音频资源的内容进行了标引,基本上全方位地详细地反应了音频资源所要传达的信息。
步骤ST102:语义标引信息的嵌入
将音频资源的语义标引信息作为语义水印嵌入到音频资源中,得到带有语义标引信息的音频资源。
在本发明中,将音频资源的语义标引信息作为语义水印嵌入到音频资源中,这样做有三个明显的优点:一是语义标引信息和音频资源为一体化传输,不容易丢失,且能较容易的恢复出完整的语义标引信息;二是嵌入的语义标引信息具有透明性,不对音频资源的声音质量产生可听到的失真;三是嵌入的语义标引信息具有较强的鲁棒性,能抵御对音频资源的压缩、滤波、重采样、重量化、剪切、加噪声等一般信号处理操作。这样不仅实现了语义标引信息在网络中的有效传输,而且在网络传输过程中管理者可通过语义水印方便有效地对音频资源进行管理和实时监控。
图2是图1所示的语义标引信息嵌入过程示意图。
在本实施例中,如图1所示,根据嵌入的信息不同,分为两个不同的水印,一个为语义标引信息构成的语义水印,利用语义水印可以实现传输过程中的音频资源的版权保护和内容保护。通过对语义水印进行检测和监督,对不同的音频资源实现业务区分和服务区分。另一个为音频资源的传输优先级信息构成的传输优先级水印,通过用户对不同音频资源的不同需求程度,将音频资源的传输优先级分为高,中,低三个级别,在网络传输时,将解析出音频资源的传输优先级,传输优先级越高的音频资源将优先传输,这样可以在一定程度上解决带宽拥堵的问题,提高音频资源的传输效率。在音频资源中嵌入两个不同的水印,不仅能更好的协调鲁棒性和不可听性,而且不同的语义信息发挥出不同的作用,提高了效率。
对于音频,其关键技术是基于有损压缩的音频编码技术,相比直接将水印嵌入到音频流或者编码后的比特流中,将水印直接嵌入在编码阶段的变化域中的量化系数中可以更好的通过水印算法与音频编码相结合,能更为准确地控制语义水印以及传输优先级水印的调制,同时又保持较强的鲁棒性。因此在本实施例中,将语义水印以及传输优先级水印嵌入在音频资源的编码阶段,兼顾鲁棒性和不可听性,将音频编码中的压缩系数与水印参数之间进行优化匹配,在压缩编码的同时嵌入了水印。其具体步骤如下:
步骤ST1021:对音频资源的每一帧音频信号进行子带滤波;
步骤ST1022:对子带滤波后的音频信号进行MDCT变换;
步骤ST1023:量化MDCT系数;
步骤ST1024:选取合适的MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置;
MDCT域中的高频系数含能量少,在此嵌入水印对听觉质量非常有利,但音频信号的高频区对常见的信号处理和噪声比较敏感,因此水鲁棒性较差。MDCT域中的低频系数含有较多的信号能量,在此嵌入水印则鲁棒性较好,但容易导致信号失真,影响听觉质量。因此,需选择合适的嵌入位置,最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性。
步骤ST1025:将语义标引信息进行预处理,得到含有语义标引信息的随机序列;
步骤ST1026:将音频资源的传输优先级信息进行预处理,得到含有对音频资源不同的传输优先级的随机序列。
步骤ST1027:将步骤ST1025、步骤ST1026得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤ST1024选出的最优位置,得到带有语义标引信息和传输优先级的音频资源。
图3是图1所示的语义标引信息的解析和音频资源的初步过滤流程图。
在本实施例中,如图3所示,用户终端接收到经过网络传输层来的包含语义标引信息的音频资源,需要对其进行语义解析,并根据解析出的语义标引信息对音频资源进行初步的过滤,步骤如下:
步骤ST301:根据选则最优嵌入位置的方法的逆运算,在接收到的带有语义标引信息的音频资源中,找到语义水印的嵌入位置,提取出包含语义标引信息的随机序列;
步骤ST302:根据产生随机序列采取的伪随机处理方法,对包含语义标引信息的随机序列进行逆变换,将提取的随机序列恢复成语义标引信息;
步骤ST303:检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存。若本地文件中没有该语义标引信息或者不完全,则将该信息储存到本地文件中,刷新本地存储,实现对音频资源的初步过滤,对音频文件进行管理。
图4是图1所示的张量语义离散度的计算流程和音频资源的分类流程图。
如图4所示,在本实施例中,利用已解析出的语义标引信息,进行张量语义离散度计算,张量语义离散度计算的目的是实现音频分类,方便对音频资源管理,更好的给用户提供主动服务。
目前对音频资源进行分类的方法都是简单的将某一个单一的文本元数据构造为向量模型,这不仅会产生高维向量而导致的“维度灾难”问题,同时,在降维过程中,由于特征维度过高及训练样本的数据不足,将不同类型特征进行拼合会引起“过压缩”问题,以致丢失大量信息。为了克服上述问题,在本发明中,采用张量语义离散度计算,通过计算各音频资源的张量语义离散度(TensorSemantic Dispersion,简称TSD)来完成对音频资源的分类。为有效地根据张量语义离散度对接收到音频资源进行分类管理,构建了RBF张量神经网络(RadicalBasis Function Tensor Neural Network,RBFTNN),实现音频资源的自动分类。具体步骤如下:
步骤ST401:将接收到各个音频资源的语义标引信息用三阶张量
Figure GDA0000060817620000081
表示,其中I1、I2、I3分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数,则所有的接收到音频数据集合X={X1,X2,...,Xn}都在此张量空间内;
步骤ST402:对所有的音频资源类别,在张量语义离散度计算中,定义音频资源属于同一类别的类内语义离散度为α,属于不同类别的类间语义离散度为β;
步骤ST403:满足类内语义离散度α最小,类间语义离散度β最大时的类别信息作为TSD,即张量语义离散度经验知识;
步骤ST404:将所得到的TSD经验知识初始化RBF张量神经网络(RadicalBasis Function Tensor Neural Network,简称RBFTNN)模型,并确定网络拓扑结构中权值和隐层神经元的个数;
步骤ST405:利用RBFTNN算法将得到张量语义离散度经验知识作为样本数据进行迭代训练,完成RBFTNN分类模型建立,并存入RBFTNN模型库,以用于对资源信息的自动分类。
步骤ST406:针对任一需找出目标类别的音频语义资源,用模型库中的RBFTNN模型寻找资源目标输出。若能找出分类目标,返回目标类别,若不能,则对该类新音频资源重新执行离散度分类及RBFTNN模型建立的过程,并最终更新模型库。
分类实例
在本实例中,音频资源均采用音乐。对1000首音乐的15个语义信息进行标引,这些语义信息包括外部属性信息:压缩标准、演唱者的性别、语言、文件大小;版权管理信息:作曲者、作词者、出版者、演唱者、专辑名和标题;本征语义信息:情感、评论、乐器、旋律、流派。此三组标引信息分别对应了三阶张量的三个阶。
对该1000首标引音乐,计算各自的张量语义离散度,得到类内语义离散度α最小,类间语义离散度β最大时的类别信息作为TSD,即张量语义离散度经验知识,利用RBF张量神经网络算法进行自动分类。
在本实例中,采用查准率、查全率来说明分类性能,其中,查准率为待分类音乐中属于正确目标类别的音乐所占比例大小,而查全率为包含正确目标类别音乐所占实际存在且满足目标要求的音乐比例大小。
考虑到采用语义个数不同将影响分类的正确率,通过与典型的混合高斯模型(GMM)作为分类对比方案并进行多次试验表明,当采用四个语义时两种算法的分类效果最佳,其中所采用不同四个语义的组合如表2所示。
  对应四个语义
  四个语义1(FS1)   流派、情感、语言和标题
  四个语义2(FS2)   作曲者、出版者、演唱者和专辑名
  四个语义3(FS3)   压缩标准、演唱者性别、语言和文件大小
  四个语义4(FS4)   乐器、情感、专辑名和演唱者
表2
考虑到语义组合FS1到FS4的分类效果几乎相同,在本实例中仅给出了语义组合FS1的分类结果如表2所示:
  本实例中的算法查准率  GMM算法查准率
  查全率0.3   0.75  0.45
  查全率0.4   0.7  0.42
  查全率0.5   0.68  0.41
  查全率0.6   0.65  0.4
  查全率0.7   0.6  0.35
  查全率0.8   0.58  0.34
  查全率0.9   0.5  0.28
表3
由表3可知,当查全率相同的情况下,本实施例中的算法的查准率比GMM的查准率提高了至少20个百分点,即证明本实施例中算法具有较好分类能力。为建立自动分类模型,记录上述离散度分类仿真所形成的音频资源及对应类别信息,并作为RBFTNN训练的经验样本。
根据上述仿真可知该1000首音乐中包含四个类别,且每个类别中的音频个数分别为164、159、452和225。在RBFTNN模型建立过程中,当对其中一类进行资源分类时,该类为目标类,其余音频资源为非目标类。
经神经网络训练并逐步迭代后,建立基于离散度的RBFTNN(TSD+RBFTNN)模型。用ROC曲线来该模型的分类准确性和有效性,其中,实际正例数P=TP+FN,即目标类别的样本个数;实际负例数N=FP+TN,即非目标类别样本个数;其中,T表示Ture,F表示False,实例总数C=P+N;则有查准率=TP/TP+TN,查全率=TP/P。ROC曲线中定义两个概念,错误的正例率(FPR)FPR=FP/N;正确的正例率(TPR)TPR=TP/P。为了更好的对比本发明方法的性能,与基于离散度的支持向量机SVM(TSD+SVM)自动分类模型作比较,其仿真结果如图5所示。
图5中a、b、c和d分别给出了语义组合FS1、FS2、FS3和FS4的ROC曲线,图中,横坐标表示FPR,即异常点接受的情况(outliers accepted);纵坐标表示TPR,即目标点的接受(targets accepted);虚线和实线分别表示采用TSD+SVM和TSD+RBFTNN两种方法进行多语义分类检索的ROC曲线。从图a~d中可看出,实线更接近单位方形的左上角,即对TSD分类经验知识,进行SVM训练得到的分类器的结果在性能上远不如本发明提出的RBFTNN的分类精度。其中,图c、d的效果尤其明显,当FPR值大于0.4时,TSD+SVM分类准确率才能达到50%以上,而本实施例中方法的准确率至少为95%。因此,针对不同的多语义分类检索问题,TSD+RBFTNN方法具有较强的自动分类能力。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于语义理解的音频资源管理方法,其特征在于,包括以下步骤: 
(1)、在网络源端对音频资源进行资源整合 
在对音频资源进行语义理解的基础上实现语义标引,从而生成该音频资源的语义标引信息;所述的语义标引是指对音频资源的语义进行多维度的标引,使形成的语义标引信息能够全方位地具体地反应一个特定的音频资源; 
将音频资源的语义标引信息和音频资源的传输优先级作为语义水印嵌入到音频资源中,得到带有语义标引信息和传输优先级的音频资源; 
(2)、网络源端发送带有语义标引信息和传输优先级的音频资源给用户终端; 
(3)、用户终端对接收到的带有语义标引信息和传输优先级的音频资源进行语义解析,并对解析出的语义标引信息进行一个初步的过滤,以此判断是否将接收到的音频资源在本地储存; 
所述的语义解析是指提取嵌入到音频资源中的语义水印,恢复成对音频资源进行多维度标引的语义标引信息;所述的初步过滤是检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存; 
(4)、用户终端将接收到各个音频资源的语义标引信息分别用三阶张量表示,然后计算它们之间的语义关联度即张量语义离散度,最后,根据张量语义离散度对接收到音频资源进行分类管理; 
所述的步骤(1)的嵌入为: 
步骤ST1021:对音频资源的每一帧音频信号进行子带滤波; 
步骤ST1022:对子带滤波后的音频信号进行改进离散余弦变换MDCT; 
步骤ST1023:量化改进离散余弦变换MDCT系数; 
步骤ST1024:选取合适的改进离散余弦变换MDCT系数分别作为语义水印以及传输优先级水印嵌入的最优位置; 
MDCT系数的选择应最大程度的保证语义水印以及传输优先级水印的不可听性和鲁棒性; 
步骤ST1025:将语义标引信息进行预处理,得到含有语义标引信息的随机 序列; 
步骤ST1026:将音频资源的传输优先级信息进行预处理,得到含有对音频资源不同的传输优先级的随机序列; 
步骤ST1027:将步骤ST1025、步骤ST1026得到的包含有语义标引信息、传输优先级的两个序列分别嵌入到步骤ST1024选出的最优位置,得到带有语义标引信息和传输优先级的音频资源; 
所述的步骤(4)为: 
步骤ST401:将接收到各个音频资源的语义标引信息用三阶张量
Figure FDA00003601615900021
表示,其中I1、I2、I3分别是进行语义标引信息的外部属性信息的特征向量、版权管理信息的特征向量及本征语义信息的特征向量的维数,则所有的接收到音频数据集合X={X1,X2,…,Xn}都在此张量空间内; 
步骤ST402:对所有的音频资源类别,在张量语义离散度计算中,定义音频资源属于同一类别的离散度为类内语义离散度α,属于不同类别的离散度为类间语义离散度β; 
步骤ST403:满足类内语义离散度α最小,类间语义离散度β最大时的类别信息作为张量语义离散度经验知识; 
步骤ST404:将所得到的张量语义离散度经验知识初始化径向基函数张量神经网络模型,并确定网络拓扑结构中权值和隐层神经元的个数; 
步骤ST405:利用径向基函数张量神经网络算法将得到张量语义离散度经验知识作为样本数据进行迭代训练,完成径向基函数张量神经网络分类模型建立,并存入径向基函数张量神经网络模型库,以用于对资源信息的自动分类; 
步骤ST406:针对任一需找出目标类别的音频语义资源,用模型库中的径向基函数张量神经网络模型寻找资源目标输出,若能找出分类目标,返回目标类别,若不能,则对该类新音频资源重新执行离散度分类及径向基函数神经网络模型建立的过程,并最终更新模型库。 
2.根据权利要求1所述的基于语义理解的音频资源管理方法,其特征在于,所述的步骤(3)具体为: 
步骤ST301:根据选则最优嵌入位置的方法的逆运算,在接收到的带有语义标引信息的音频资源中,找到语义水印的嵌入位置,提取出包含语义标引信息 的随机序列; 
步骤ST302:根据产生随机序列采取的伪随机处理方法,对包含语义标引信息的随机序列进行逆变换,将提取的随机序列恢复成语义标引信息; 
步骤ST303:检查解析出的语义标引信息是否同用户终端已经存储有的音频资源的语义标引信息相同,如果相同,则放弃接收到音频资源,如果不同,则将接收到的音频资源在本地储存;若本地文件中没有该语义标引信息或者不完全,则将该信息储存到本地文件中,刷新本地存储,实现对音频资源的初步过滤,对音频文件进行管理。 
CN2011100831317A 2011-04-02 2011-04-02 一种基于语义理解的音频资源管理方法 Expired - Fee Related CN102143001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100831317A CN102143001B (zh) 2011-04-02 2011-04-02 一种基于语义理解的音频资源管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100831317A CN102143001B (zh) 2011-04-02 2011-04-02 一种基于语义理解的音频资源管理方法

Publications (2)

Publication Number Publication Date
CN102143001A CN102143001A (zh) 2011-08-03
CN102143001B true CN102143001B (zh) 2013-10-09

Family

ID=44410242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100831317A Expired - Fee Related CN102143001B (zh) 2011-04-02 2011-04-02 一种基于语义理解的音频资源管理方法

Country Status (1)

Country Link
CN (1) CN102143001B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801947B (zh) * 2012-07-02 2014-08-13 西南科技大学 一种基于h264的语义信息传输与保护方法
CN102982805B (zh) * 2012-12-27 2014-11-19 北京理工大学 一种基于张量分解的多声道音频信号压缩方法
CN103473308B (zh) * 2013-09-10 2017-02-01 浙江大学 基于最大间隔张量学习的高维多媒体数据分类方法
CN105786798B (zh) * 2016-02-25 2018-11-02 上海交通大学 一种人机交互中自然语言意图理解方法
CN106354861B (zh) * 2016-09-06 2019-09-20 中国传媒大学 电影标签自动标引方法及自动标引系统
CN107065669A (zh) * 2017-04-20 2017-08-18 重庆锐纳达自动化技术有限公司 一种远程控制家用机器人的方法
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
CN110390941A (zh) * 2019-07-01 2019-10-29 清华大学 基于系数相关模型的mp3音频隐写分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647528A (zh) * 2002-04-12 2005-07-27 三菱电机株式会社 元数据编辑装置、元数据再生装置、元数据分发装置、元数据检索装置、元数据再生成条件设定装置和元数据分发方法
CN1684459A (zh) * 2004-04-18 2005-10-19 西南科技大学 数据广播系统中的ucl嵌入方法
CN101345595A (zh) * 2008-08-26 2009-01-14 国家广播电影电视总局广播科学研究院 一种基于广播信道传输内容标引的系统及方法
CN101505405A (zh) * 2009-02-25 2009-08-12 国家广播电影电视总局广播科学研究院 基于内容标引的数字媒体内容播发方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647528A (zh) * 2002-04-12 2005-07-27 三菱电机株式会社 元数据编辑装置、元数据再生装置、元数据分发装置、元数据检索装置、元数据再生成条件设定装置和元数据分发方法
CN1684459A (zh) * 2004-04-18 2005-10-19 西南科技大学 数据广播系统中的ucl嵌入方法
CN101345595A (zh) * 2008-08-26 2009-01-14 国家广播电影电视总局广播科学研究院 一种基于广播信道传输内容标引的系统及方法
CN101505405A (zh) * 2009-02-25 2009-08-12 国家广播电影电视总局广播科学研究院 基于内容标引的数字媒体内容播发方法及系统

Also Published As

Publication number Publication date
CN102143001A (zh) 2011-08-03

Similar Documents

Publication Publication Date Title
CN102143001B (zh) 一种基于语义理解的音频资源管理方法
CN101477798B (zh) 一种分析和提取设定场景的音频数据的方法
CN101620596B (zh) 一种面向查询的多文档自动摘要方法
CN102799605B (zh) 一种广告监播方法和系统
Dhanaraj et al. Automatic Prediction of Hit Songs.
CN101833986B (zh) 一种三级音频索引的创建方法及音频检索方法
Jiang et al. SVM-based audio scene classification
CN112861990A (zh) 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN102073631A (zh) 利用关联规则技术的视频新闻单元划分方法
Seyerlehner et al. Frame level audio similarity-a codebook approach
CN102253993B (zh) 一种基于词汇树的音频片段检索算法
Sukel et al. Multimodal classification of urban micro-events
CN103294696A (zh) 音视频内容检索方法及系统
Harb et al. A query by example music retrieval algorithm
Sattigeri et al. A scalable feature learning and tag prediction framework for natural environment sounds
CN110808067A (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
CN102214218B (zh) 音视频内容检索系统及其方法
Lallemand et al. Content-based retrieval of environmental sounds by multiresolution analysis
Feki et al. Automatic environmental sound concepts discovery for video retrieval
CN102984147A (zh) 一种基于旋律识别的多媒体安全过滤方法
CN113488027A (zh) 一种层级分类的生成音频溯源方法及存储介质、计算机设备
Kobayakawa et al. Musical genre classification of MPEG-4 TwinVQ audio data
Osmalsky A combining approach to cover song identification
Feki et al. Environmental sound extraction and incremental learning approach for real time concepts identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Xing Ling

Inventor after: Zhang Qi

Inventor after: Ma Qiang

Inventor after: Ma Jianguo

Inventor after: Zhu Min

Inventor before: Ma Jianguo

Inventor before: Xing Ling

Inventor before: Zhu Min

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: MA JIANGUO XING LING ZHU MIN TO: XING LING ZHANG QI MA QIANG MA JIANGUO ZHU MIN

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131009

CF01 Termination of patent right due to non-payment of annual fee