CN106599305B

CN106599305B - 一种基于众包的异构媒体语义融合方法

Info

Publication number: CN106599305B
Application number: CN201611245166.5A
Authority: CN
Inventors: 郭克华; 梁中鹤
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2020-03-31
Anticipated expiration: 2036-12-29
Also published as: CN106599305A

Abstract

本发明公开了一种基于众包的异构媒体语义融合方法，主要包含三个部分：语义抽取、多模态语义融合、语义存储和分布。本发明采用了众包环境下的异构媒体语义融合方法，可以准确地获取任务主题和用户的历史热点主题，并且本发明完全抛开了物理特性提取，执行了仅仅基于语义领域的检索程序，保证了高精确度和高精度比率。另外，本发明在语义提纯之后保证了精确度的增长以及时间代价的稳定。

Description

一种基于众包的异构媒体语义融合方法

技术领域

本发明涉及一种基于众包的异构媒体语义融合方法。

背景技术

语义信息融合作为连接低等数据表现和人类知识理解的桥梁，已经成为了提升检索的效率和准确度的重要的组成部分。

语义关联分析和多模式表达是语义融合的先决条件。在不同模式下自动获取一个语义关联是一个热点，并产生了很多相关方法。通过文本可视模型来建立对图像的语义关联，挖掘文本的可视性语义。利用数据驱动方法，面向图像的描述文本，发现图像语义的关键短语来进行文本-图像的语义关联分析。针对视频中图像、音频以及文本之间的语义关联关系，使用三阶张量对镜头中时序关联的多模态信息进行表达，利用张量镜头(TensorShot)表达并应用到视频语义概念检测，效果较好，但复杂度较高。从另一个视角，利用多图模型(Multi-graph Model)对多模态信息进行表达，并将传统基于图的机器学习方法扩展到多图模型以进行多模态融合的视频语义概念检测。

在语义融合算法方面，现有方法结合数据的特征层和语义特征层，提出了一系列的算法，常见方法如非线性融合、语义投票等。基于图模型，提出了一种半监督特征融合格式，并成功应用到图像自动标注领域。在视频语义融合领域，利用多视图学习(Multi-viewLearning)，在考虑每个视图统计特性的基础上学习得到一个最优的共同表达，相关算法已经应用到了视频和图像之间的语义理解领域。在语义融合策略上，基于多图模型的多模态融合得到了广泛应用，将多图看作多个视图(Multi-view)，将多视图学习方法引入到多图模型，使得语义标签从训练数据的有标记镜头传递到无标记镜头，以提升视频语义融合的效果。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于众包的异构媒体语义融合方法。

为解决上述技术问题，本发明所采用的技术方案是：一种基于众包的异构媒体语义融合方法，包括以下步骤：

1)输入用户集合US和任务集合TS；

2)定义一个阈值ε₁，0≤ε₁≤1；

3)计算用户的历史主题tpc(U)和任务的历史主题tpc(t)；

4)遍历US集合中的每一个用户U，进行步骤5)的操作，遍历结束后跳到步骤7)；

5)遍历TS集合中的每一个任务t，进行步骤6)的操作，遍历结束跳转到步骤4)；

6)如果该任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε₁个范围之内，则将该任务t推荐给用户U，否则不推荐；

7)遍历所有没有被推荐分配出去的任务t，将这些任务随机推荐给US中的用户；

8)输入媒体文件M，并定义它的语义实体为SO；

9)获取M的一个标注A_i并且将A_i存储到SO中；

10)分配SO的标注重要性w_i；

11)遍历US中的每一个用户，用户编号为i，,进行步骤12)；

12)如果M可以通过A_i获取，那么k_i＝1，否则k_i＝0，然后累加

|U|是提供标注的众包用户数量；

13)加载媒体文件M的语义实体SO，定义一个阈值ε₂，0≤ε₂≤1；

14)加载媒体文件M的标注集合Set_M，并且计算其标注重要性的均值

15)遍历每一个用户，进行步骤16)；

16)如果编号为j的用户的标注重要性

那么从Set_M中删除该标注A_j。步骤3)的具体实现过程包括：

1)输入用户U的历史标注集合S_ha和分类图G；

2)使用广度优先算法遍历搜索G；

3)对于G中的每一个节点t，计算t在S_ha中的出现频率tf(t/S_ha)，并且将计算结果添加到动态数组tpc(U)*中；

4)将tpc(U)*中的tf(t/S_ha)进行降序排序，得到用户的历史主题tpc(U)。

语义实体SO通过两种方式和其相对应的媒体文件M合并：第一种：在线方式，SO通过软件提交并隐藏在新的媒体文件中；第二种：离线方式，SO保存在一个文件中，用户在软件中选择一个媒体文件与SO合并。

将媒体文件M与用户标注的语义实体SO合并之后，以如下方式进行存储：定义一个S_MFILE类，该类中包含一个byte型指针SemanticData指向语义实体SO和一个MFILE型结构体指针media，该指针的结构体MFILE包含一个byte型指针MediaData指向该媒体文件的二进制数据。

与现有技术相比，本发明所具有的有益效果为：本发明采用了众包环境下的异构媒体语义融合方法，可以准确地获取任务主题和用户的历史热点主题，并且本发明完全抛开了物理特性提取，执行了仅仅基于语义领域的检索程序，保证了高精确度和高精度比率。另外，本发明在语义提纯之后保证了精确度的增长以及时间代价的稳定。

附图说明

图1为本发明框架结构图。

具体实施方式

本发明的框架如图1所示，主要包含三个部分：语义抽取(如图1(1))、多模态语义融合(如图1(2))、语义存储和分布(如图1(3))。

第一步，基于多源化的异构媒体，融合信息通过众包用户提取出来。我们定义一个语义提取的工作流程，它给用户提供一个交互的接口。同时，根据他们的语义规定，任务推荐给适合的用户。系统控制高质量抽取并矫正任务。

在本方法中，语义信息完全的产生于社会众包用户。我们假定，有N个媒体文件记作C＝{M₁,M₂,...,M_N}，首先，定义语义标注的格式。

定义1:

A是M的标注，A可以描述为如下的格式：

A＝{x,y,t,a} (1)

x，y是语义标注的横纵坐标，t是语义标注的时间坐标，a是标注内容。

根据M的格式，当满足下述条件时，A的一些值可能为空：(1)当M是文本或音频时，x,y＝null。(2)当M是文本或图像时，t＝null。

标注内容a是异构的并且可以由各种形式来表示。用户可以画一幅图，记录一段视频或音频或者写一段标注来描述A。

社交众包用户可以提供大量的标注，所以，这些标注可以作为一个集合。

定义2:

M的一个语义实体SO可以被表示为：

SO＝map＜p_M,Set_M＞ (2)

p_M是M的资源路径，并且连接到M，Set_M是包含所有社交众包用户提供的标注的集合：

Set_M＝{A₁,A₂,...,A_|U|} (3)

|U|是提供标注的众包用户数量。

我们给每种类型的媒体文件都设计了用户接口。为了得到更多的精确的语义，我们在接口上推荐了一些语义属性。本发明定义了六个基础维度属性推荐给用户：(1)who,(2)what,(3)why,(4)when,(5)where,(6)how。

不是所有的A_i能够准确地描述语义信息M，定义w_i是A_i的重要性。我们给w_i定义一个初值：

考虑到社交用户的移动性、随机性和复杂性，我们设计了一个任务推荐算法来提高语义提取的有效性。特别地，这个算法考虑到用户的兴趣，也就是标注文档的历史主题(tpc)。

US是一个用户集合，

我们使用英文维基百科分类指数图来表述历史主题的分类tpc(U)。我们爬取当前的维基百科分类指数页面的分类网络中的第二层次(包括“General reference”)。对于每一个分类，我们爬取其中的三个层次来形成统一的集合。在去除了这些停止词汇(例如‘and’，‘for’等等)后，将爬取的分类名称和相应的同义词表示为图结构。我们定义其为分类图，历史主题能够通过下面的算法1进行分类。

算法1历史主题判别

步骤一：输入用户U的历史标注集合S_ha和分类图G；

步骤二：使用广度优先算法遍历搜索G；

步骤三：对于G中的每一个节点t，计算t在S_ha中的出现频率tf(t/S_ha)，并且将计算结果添加到动态数组tpc(U)中；

步骤四：将tpc(U)中的tf(t/S_ha)进行降序排序。

在这个算法中，函数tf(t/S_ha)可以描述为：

在进行了历史主题判别之后，我们就可以根据其历史主题和用户的兴趣来进行众包任务推荐。

算法2众包任务推荐

步骤一：输入用户集合US和任务集合TS；

步骤二：定义一个阈值ε₁(0≤ε₁≤1)

步骤三：通过算法1计算用户的历史主题tpc(U)和任务的历史主题tpc(t)；

步骤四：遍历US集合中的每一个用户U进行步骤五操作，遍历结束后跳到步骤七；

步骤五：遍历TS集合中的每一个任务t进行步骤六的操作，遍历结束跳转到步骤四；

步骤六：如果该任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε₁个范围之内，则将该任务t推荐给用户U，否则不推荐；

步骤七：遍历所有没有被推荐分配出去的任务t，将这些任务随机推荐给US中的用户。

第二步，进行语义实体的传播。在这一步中，多模态语义实体归一为统一的格式，降低维数来消除冗余信息。然后，我们从语义信息中挖掘一些数据并且通过消除一些错误的语义信息来对它们进行提纯。

语义实体SO满足SO＝map＜p_M,Set_M＞。

A_i是多样化的，因为类型可能有图像、视频、音频和文本等。在本方法中，语义信息将会在宿主文件中传播，语义不能够占用太多空间，所以我们将多样化的语义统一转换成二进制文本格式。

我们通过宿主媒体文件的每一个不同模式的低层特征提取来提取统一语义。对于标注A＝{x,y,t,a}，低层特征提取如下所示：

(1)对于图像类型的语义，我们分割标注位置为(x,y)，指定标注内容为a。

(2)对于音频类型的语义，我们得到一维时间坐标t，指定标注内容为a，然后使用基于语音识别技术的深度学习方法来将音频转换为文本格式。

(3)对于视频类型的语义，我们得到一维时间坐标t和标注坐标位置(x,y)，最后指定标注内容为a。

(4)对于文本类型的语义，原始结构直接保留下来。

所有的语义实体包含了语义关键字和语义属性信息表示为<key-value>结构，它是大数据进程的基础。

统一化之后，特征维度要好于单一模式，文本包含丰富的词汇共现信息。我们使用潜在语义信息(LSA)来进行降维。LSA的基础思想是通过单一值分解来改变原始矢量空间成低维度的正交矩阵，从而转换成潜在的语义空间。我们使用m×n大小的特征矩阵A＝[a_ij]_m×n来描述语义方面的共现。通过对矩阵A的单一值分解，矩阵A表述为三个矩阵的乘积：

这之中，P和Q是矩阵A的左右奇异向量矩阵，矩阵S是矩阵A的奇异值序列。我们选取极大的奇异值k和其相对应的奇异矢量来组成一个新的矩阵

来作为原始矩阵的近似矩阵去进行降维。

w_i很明显不能是常量。显而易见地，高频使用的语义标注更能描述用户的意图，它们是更重要的。我们使用一个调节机制在返回文档M的使用过程中调节A_i的重要性。这个算法详细说明如下：

算法3重要性调节

步骤一：输入媒体文件M，并定义它的语义实体为SO；

步骤二：获取A_i并且将它们存储到SO中；

步骤三：分配SO的重要性w_i；

步骤四：遍历每一个用户U，用户编号为i，,进行步骤五；

步骤五：如果M可以通过A_i获取，那么k_i＝1，否则k_i＝0。然后累加w_i＝w_i+k_i/|U|。

在这个算法中，我们给定高频使用的语义标注更高的重要性。在后面的算法中，我们将会消除低重要性的标注，使得语义信息更加准确。

语义实体SO＝map＜p_M,Set_M＞源于众包用户的不同理解。因此，|Set_M|将会连续不断地增长。在Set_M中，常错和低频的语义标注不可避免的混合在一起，这将会浪费更多的检索资源和储存空间。为了解决这个问题，我们定义了一个最优化方法来消除可能很少用到的语义标注。这个过程被称为语义提纯，语义提纯的目的是保持高频标注和消除很少使用的标注。这个过程描述如下：

算法4语义提纯

步骤一：加载媒体文件M的语义实体SO；

步骤二：定义一个阈值ε₂(0≤ε₂≤1)；

步骤三：加载媒体文件M的标注集合Set_M，并且计算其标注重要性的均值

步骤四：遍历每一个用户，用户编号为j，进行步骤五；

步骤五：如果该用户的标注重要性

那么从Set_M中删除该标注A_j。

算法4消除了重要性低于平均值

的标注，它能使得语义信息更加准确。在这个算法中，语义提纯将会检查每一个媒体文件的语义标注。对于每一个文档，计算

和消除低重要性的标注已达到时间复杂度为O(|U|)。因此，总的来说，算法4的总运行时间是O(|U|×|C|)。它的复杂性很高并且需要巨大的计算资源，所以我们每次运行这个算法要间隔24小时以上。

第三步，对第二步的语义融合存储为媒体文件和分布处理。由于语义信息是动态的，读写策略根据语义更新来设计。最终，我们设计了基于数据库的HBase来存储语义信息并保证语义信息的同步。

在传统的语义存储处理中，语义信息仅仅存在知识库中，语义信息和宿主媒体数据是逻辑关联的。但是当宿主媒体数据不在知识库中时，语义信息就会丢失，语义重建将是一个耗时的工程。本发明介绍了一个新的语义分布方案，用于传播在宿主媒体数据间的语义信息。语义信息的备份将会存储在知识库中。

本发明中，通过第二步进行语义融合和提纯后的语义实体SO将会通过两种方式和其相对应的媒体文件M合并。第一种：在线方式。SO通过软件提交并隐藏在新的媒体文件中。第二种：离线方式。SO保存在一个文件中，用户在软件中选择一个媒体文件与之合并。

将媒体文件M与用户标注的语义实体SO合并之后该文件将以如下方式进行存储：定义一个S_MFILE类，该类中包含一个byte型指针SemanticData指向实体语义信息SO和一个MFILE型结构体指针media。该指针的结构体MFILE包含一个byte型指针MediaData指向该媒体文件的二进制数据以及其他性能领域的参数。

NoSQL数据库被广泛地应用在工业中，包括大数据和实时WEB应用。我们使用这项技术来存储语义块和使用最优化map<key-value>形式描述的媒体坐标。我们使用ApacheHBase来简化这个存储。为了促进分布式计算中的后期数据进程。我们改变数据结构为map<key-value>键值对。HBase存储使用数据节点块来存储文件，每一个块的大小都是一个定值(例如64MByte)，相当于媒体语义本体文件存储在每一个块中。语义信息社会化之后，语义信息正连续不断地被读取和更新。因此，在本方法中，语义信息分析事实上是一种需要很多次迭代的IO密集型计算。由于大量语义数据的存储和进程，所有的数据进程将会在内存中执行来减少IO开销。我们可以通过内存计算来提高数据分析的效率，这可以加载数据到内存中来避免IO瓶颈。在初始化阶段，所有的数据都加载到内存中。数据分析和查询操作都执行在高速的内存中；CPU从内存中准确地读取数据来进行实时计算和分析，从而避免了应用、服务器、网络硬件和存储之间的交换来降低网络和IO的影响。

Claims

1.一种基于众包的异构媒体语义融合方法，其特征在于，包括以下步骤：

1)输入用户集合US和任务集合TS；

2)定义一个阈值ε₁，0≤ε₁≤1；

3)计算用户的历史主题tpc(U)和任务的历史主题tpc(t)；

8)输入媒体文件M，并定义它的语义实体为SO；

9)获取M的一个标注A_i并且将A_i存储到SO中；

10)分配SO的重要性w_i；

11)遍历US中的每一个用户，进行步骤12)；

12)如果M可以通过A_i获取，那么k_i＝1，否则k_i＝0，然后累加ω_i ^*＝w_i+k_i/|U|；|U|是提供标注的众包用户数量；

15)遍历每一个用户，进行步骤16)；

16)如果编号为j的用户的标注的重要性

那么从Set_M中删除该用户的标注A_j。

2.根据权利要求1所述的基于众包的异构媒体语义融合方法，其特征在于，步骤3)中，用户的历史主题tpc(U)的具体计算过程包括：

1)输入用户U的历史标注集合S_ha和分类图G；

2)使用广度优先算法遍历搜索G；

3)对于G中的每一个节点h，计算h在S_ha中的出现频率tf(h/S_ha)，并且将计算结果添加到动态数组tpc(U)*中；

4)将tpc(U)*中的tf(h/S_ha)进行降序排序，得到用户的历史主题tpc(U)。

3.根据权利要求1所述的基于众包的异构媒体语义融合方法，其特征在于，语义实体SO通过两种方式和其相对应的媒体文件M合并：第一种：在线方式，SO通过软件提交并隐藏在新的媒体文件中；第二种：离线方式，SO保存在一个文件中，用户在软件中选择一个媒体文件与SO合并。

4.根据权利要求3所述的基于众包的异构媒体语义融合方法，其特征在于，将媒体文件M与用户标注的语义实体SO合并之后，以如下方式进行存储：定义一个S_MFILE类，该类中包含一个byte型指针SemanticData指向语义实体SO和一个MFILE型结构体指针media，该指针的结构体MFILE包含一个byte型指针MediaData指向该媒体文件的二进制数据。