CN106682204B

CN106682204B - 一种基于众包的语义提取方法

Info

Publication number: CN106682204B
Application number: CN201611254807.3A
Authority: CN
Inventors: 郭克华; 梁中鹤
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2020-08-07
Anticipated expiration: 2036-12-30
Also published as: CN106682204A

Abstract

本发明公开了一种基于众包的语义提取方法，引入了开放互联网下互联网社会用户的智慧，基于群智的、开放的、交互式的方法，设计出合理的众包语义提取工作流，并对语义进行了质量监控，确保语义提取的质量。

Description

一种基于众包的语义提取方法

技术领域

本发明涉及语义提取领域，特别是一种基于众包的语义提取方法。

背景技术

语义信息及基于语义形成的知识，作为连接低层数据表达和人类知识理解的桥梁，已成为提高检索效率和准确度的重要抓手；准确的语义描述，对于高效的媒体信息检索，显得十分宝贵。社会媒体数据通常以低层数据特征来表达，而知识的语义特征，需要结合其低层数据特征，模拟人类智能推理得到，其提取是一个从无到有的过程。对社会媒体信息的知识挖掘，前提条件是对其特征的获取。从特征获取的层次上看，可分为数据层、认知层和情感层。数据层分析的是社会媒体的低层信息，如图像的颜色、纹理，音频的衰减频率、频谱流量等；认知层关注的是媒体数据中的语义对象或具体事件，如足球赛中的球星、电影中的战争等；情感层关注的是社会媒体反映的人类智能情感。在这三个层次中，后两者与人类认知紧密相连，具有广泛的应用前景：如“从电影库中找出令人放松的片段”，“在音频库中定位经典唱段”，或“在视频中定位并跳过儿童不宜观看的内容”，等等。以上应用中的特征获取，若以传统基于数据层的特征提取方式，已经难以达到效果。

目前的语义提取方法，大致分为两类，各有优缺点：

(1)一类是人工语义提取方法，该类方法由社会媒体的生成者完成，基于人类对媒体信息的理解来进行语义提取，该类方法由社会媒体的生成者完成，基于人类对媒体信息的理解来进行语义提取，精确度较高，但是消耗大量的人工，同时，由于语义信息依赖于特定的提取人，结果也具有一定的主观性。

(2)另一类是自动提取方法，该类方法主要从媒体的底层数据来提取语义信息，无需人工干预，可在大规模的数据上使用个，但由于计算机的智能和人类智能还有相当差距，因此精确度难以保证。

在众包背景下，社会媒体的语义信息处理会面临新的挑战。这些挑战有些是由于社会媒体本身的特征导致，有些是由于众包计算的特点造成。综合起来，主要有以下特点：(1)来源的多样化。社会媒体信息来源于不同渠道，如传感器、程序生成、人工生成、其他途径共享等。(2)存储的异构化。社会媒体数据蕴含的知识来源于多种形态的交叉融合，包括文本、图像、音视频等信息的协同表达，在格式和存储方式上不尽相同。(3)表达的多模态化。众包计算下获取的语义数据，知识蕴含能力较强，但由于数据的复杂性，对其进行分析时，会遇到不同模态语义数据的多特征空间表达、多关联、多噪音等问题。(4)传播的社会化。在数据共享的大前提下，社会媒体的传播频率越来越高，媒体的低层数据信息可以随媒体文件传播，但是语义信息却往往在传播的过程中未被考虑，失去了社会性。综上，众包计算为语义高效获取提供了一个可行的途径，但是也面临着以上四个特点造成的问题。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于众包的语义提取方法。

为解决上述技术问题，本发明所采用的技术方案是：一种基于众包的语义提取方法，包括以下步骤：

1)输入用户集合US和任务集合TS，计算用户的历史主题tpc(U)和任务的历史主题tpc(t)，定义一个阈值ε₁；

2)遍历用户集合US中的每一个用户U，进行步骤3)的操作，遍历结束后跳到步骤5)；

3)遍历任务集合TS中的每一个任务t，进行步骤4)的操作，遍历结束跳转到步骤2)；

4)如果任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε₁个范围之内，则将该任务t推荐给用户U，否则不推荐；

5)遍历所有没有被推荐分配出去的任务，将这些任务随机推荐给用户集合US中的用户，用户集合US中的用户在完成任务后提交语义信息；

6)动态监控用户提交上来的语义信息，将所有用户提交的语义信息放入语义信息集合中，并对语义信息集合质量进行评估，根据质量评估的结果精炼所述语义信息集合，得到最终的语义信息集合。

步骤1)中，用户的历史主题tpc(U)的具体计算过程包括：

1)输入用户U的历史标注集合S_ha和分类图G；

2)使用广度优先算法遍历搜索G；

3)对于G中的每一个节点h，计算h在S_ha中的出现频率tf(h/S_ha)，并且将计算结果添加到动态数组tpc(U)*中；

4)将tpc(U)*中的tf(h/S_ha)进行降序排序，得到用户的历史主题tpc(U)。

任务的历史主题tpc(t)的计算过程与用户的历史主题tpc(U)的计算过程相同。

本发明中，0≤ε₁≤1。

对语义信息集合质量进行评估，根据质量评估的结果精炼用户集合US中的用户提交的语义信息集合的具体实现过程包括：

1)令M为任务集合中需要进行语义提取的媒体文档，集合S_m为M的语义信息集合，满足S_m＝{s₁,s₂,…,s_n}，n为M的语义对象个数；s_i为S_m中的语义对象；i＝1,2,…,n；

2)为S_m中每个语义对象s_i赋权值w_i，并设定w_i的初始值；

3)在语义检索过程中，如果语义信息集合S_m中的某一语义对象的内容被检索过程使用，或者被用户确定为能够表达该次检索的意图，则将该语义对象的权值w_i加1；

4)若某个语义对象的权值小于设定值，则将该语义对象从S_m中去除；

5)重复步骤2)～步骤4)，直至遍历完所有S_m中的所有语义对象，得到最终的语义信息集合。

所述设定值取值为(0，1)。

与现有技术相比，本发明所具有的有益效果为：本发明引入了开放互联网下互联网社会用户的智慧，基于群智的、开放的、交互式的方法，设计出合理的众包语义提取工作流，并对语义进行了质量监控，确保语义提取的质量。

附图说明

图1为动态质量监控与性能评估原理图。

具体实施方式

1.群智感知模式下中报语义提取工作流设计。

基于众包的语义提取，具有群智感知的特点。群智感知是指利用社会用户及所使用的各种智能终端来实现对物理世界的实时感知，通过用户的移动性和社会性等特性提高情景感知服务的质量。在群智感知模式下的众包语义提取工作流设计中，语义主要由用户生成。首先设计用户交互机制，根据语义提取的需求，其表达形式被分为图像标注、音视频标注、文本标注等维度；将这些标注定义定义为语义对象，也以异构媒体形式出现，本发明为每个维度各自设置自己的用户交友机制。针对用户交互过程中，基于语义提供者自身的服务质量，结合用户服务体验进行建模。

根据社会媒体数据的异构特点，本发明针对常见的社会媒体形式：图像、音频、视频和文本分别提供语义提取接口。为与后期大数据处理框架兼容，语义对象描述采用<key-value>形式描述，其中key为语义对象标记，value为语义的属性内容。对于图像、音频、视频和文本，分别定义二维空间坐标、一维时间坐标、三维时空坐标和一维位置坐标来作为语义对象标记；本发明将媒体对象的语义属性分为动态属性和静态属性：动态属性是随着数据实时变化的属性例如数据的时间属性when；静态属性为几乎不实时变化的属性，例如数据所在的屋里位置属性where，数据的关联的人员属性who等。为了更好地描述数据的含义，本发明定义用于描述数据语义的几个基本维度属性如下：who，where，what，when，do what(object)，how和others。

在众包任务执行的过程中，通过分析社会用户之间的移动性和社会性，将语义提取任务按照主题感知之后的分类进行合理分配。具体的任务分配算法上采用用户主题感知机制来提高任务整体的完成质量，为任务的合理推荐奠定基础。本发明除充分考虑语义提取任务自身，还融合用户的社会化信息、用户与任务之间的关联性和差异性以及用户体验与任务之间的粘合度等综合信息，提高任务分配的准确率。为提高众包语义提取的效率，考虑社会用户的移动性、随机性和复杂性，针对社会用户的特点，设计任务的智能推荐算法。具体考虑社会用户的服务能力(如社会用户的历史语义提取质量、语义提取交互时间)，以及语义提取的服务环境(如交互链路的可靠性、语义提取目标的热度)等因素。除此之外，推荐算法对社会用户的社会关系、活动规律等作为参数进行综合输入，采用基于层次分析法的众包任务发现和推荐算法，构建面向不同感知需求的众包用户任务的候选集，实现满足用户偏好的众包分配机制。

在工作流的设计中，对任务的激励机制进行建模，激发用户参与众包服务的积极性，提高语义提取的质量。采用分级激励方法，以语义提取用户在众包过程中的付出和收益作为奖励影响因子，依据分级模型计算竞标用户的胜出概率，并根据平均胜出概率和影响因子确定最终众包服务用户的服务收益，避免因处于不同服务级别而造成的收益差距过大的问题。

2.众包语义提取工作流的质量监控与性能评价。

众包工作方式，可帮助任务需求者获得大量社会用户的群体智慧，虽然可以更容易地收集到大规模的语义数据，但质量监控和性能评估是一个重要的问题。现有的研究工作大多针对一些特定的众包系统，较难推广到任意类型任务中；尤其是语义提取这种主观型任务，更是需要一种有效的方法进行质量监控和性能评估，从用户限制、激励机制上着手，不一定能够取得较好的效果。

为达到较好的质量监控，本发明从提交结果本身的正确性和可靠性上进行分析。基于此，本发明采用阶段式动态质量控制策略，集中研究依据社会用户的语义提取结果来进行质量监控和性能评估。在社会用户完成语义提取任务的过程中，设立阶段检测点来评估其上一阶段完成任务的质量，根据质量来采取相应的任务分配机制，具体流程如图1所示。

在本发明中，与现有众包工作流一样，系统首先发布语义提取请求，社会用户形成工作者池；在开始阶段，基于用户选择算法，选择某些符合条件的活跃用户并分配任务；针对用户提交的语义，在各个检测点调用质量评估算法进行评估；根据评估结果，启动替换规则，或者替换新的社会用户，或者对原有的语义信息进行精炼。在该策略下，社会用户的参与依据其提交结果的质量动态调整。

综合上述分析，本发明具体包括以下步骤：

Claims

1.一种基于众包的语义提取方法，其特征在于，包括以下步骤：

6)动态监控用户提交上来的语义信息，将所有用户提交的语义信息放入语义信息集合中，并对语义信息集合质量进行评估，根据质量评估的结果精炼所述语义信息集合，得到最终的语义信息集合；

A)令M为任务集合TS中需要进行语义提取的媒体文档，集合S_m为M的语义信息集合，满足S_m＝{s₁,s₂,…,s_n}，n为M的语义对象个数；s_i为S_m中的语义对象；i＝1,2,…,n；

B)为S_m中每个语义对象s_i赋权值w_i，并设定w_i的初始值；

C)在语义检索过程中，如果语义信息集合S_m中的某一语义对象的内容被检索过程使用，或者被用户确定为能够表达该次检索的意图，则将该语义对象的权值w_i加1；

D)若某个语义对象的权值小于设定值，则将该语义对象从S_m中去除；

E)

重复步骤B)～步骤D)，直至遍历完所有S_m中的所有语义对象，得到最终的语义信息集合。

2.根据权利要求1所述的语义提取方法，其特征在于，步骤1)中，用户的历史主题tpc(U)的具体计算过程包括：

1)输入用户U的历史标注集合S_ha和分类图G；

2)使用广度优先算法遍历搜索G；

3.根据权利要求1所述的语义提取方法，其特征在于，0≤ε₁≤1。

4.根据权利要求1所述的语义提取方法，其特征在于，所述设定值取值为(0，1)。