CN112463976A - 一种以群智感知任务为中心的知识图谱构建方法 - Google Patents

一种以群智感知任务为中心的知识图谱构建方法 Download PDF

Info

Publication number
CN112463976A
CN112463976A CN202011053028.3A CN202011053028A CN112463976A CN 112463976 A CN112463976 A CN 112463976A CN 202011053028 A CN202011053028 A CN 202011053028A CN 112463976 A CN112463976 A CN 112463976A
Authority
CN
China
Prior art keywords
data
entity
task
perception
workers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011053028.3A
Other languages
English (en)
Other versions
CN112463976B (zh
Inventor
金嘉晖
高士杰
熊润群
张竞慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011053028.3A priority Critical patent/CN112463976B/zh
Publication of CN112463976A publication Critical patent/CN112463976A/zh
Application granted granted Critical
Publication of CN112463976B publication Critical patent/CN112463976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种以群智感知任务为中心的演化知识图谱构建技术。本发明本发明提出了一种新型的以群智感知任务为中心的图谱结构,通过将该以该图谱结构的信息构建子图并入基准知识图谱,可以形成知识图谱演化;从感知人员获取群智感知任务并上传感知结果开始,本发明利用双向LSTM‑CRF方式进行命名实体识别,并利用预设定的格式进行关系抽取;随后,通过迭代式的实体链接方法,在每次迭代过程中进行表示学习,将最匹配的实体进行标记,不断迭代提取直到收敛;最后对信息进行可信度分析,结合用户历史提交的结果评估其感知结果的可信度。

Description

一种以群智感知任务为中心的知识图谱构建方法
技术领域
本发明涉及知识图谱及其应用领域,主要涉及以群智感知任务为中心的演化知识图谱的构建技术。
背景技术
随着大数据、人工智能等技术的快速发展,业界对高质量的标注信息提出了更大的需求。事实上,我们的生活的每时每刻都在产生数据,并被各类设备感知并记录。但是这些数据存在一个不可忽视的问题,就是数据庞大且质量低下。大量的数据被记录,但是从中却无法挖掘有效的信息。比如,很多人使用微博等应用,每天会在不同地点产生很多不同的消息,消息中事实上包含了一定的信息,但是这些信息却难以利用。而通过群智感知任务,让专门的一些人针对专门的任务和专门的对象进行感知,即信息收集,可以提高信息的质量。如何更好的处理建模和保存感知的结果是当下亟需解决的问题。
为了更好地保存和处理群智感知任务反馈的结果,保证数据的高质量,学术界提出了知识图谱等相关的概念。通常情况下,人类感知者产生的数据,往往是不规整的数据,计算机难以处理和理解并利用这种类型的数据。利用知识图谱,可以将复杂的人类知识表征为简单的三元组模式,即“实体-关系-实体”或“实体-关系-属性”,按照这种方式构建一张规模庞大的知识图谱,计算机便可以在此基础上进行推理和判断等后续处理。将知识图谱引入各个应用方向,可以显著提高模型的背景知识和理解能力。将感知结果也以知识图谱的方式进行保存,可以帮助需要使用感知数据的应用高效的利用这些信息。在传统的知识图谱中,只是将基准知识图谱作为背景知识辅助利用,并未将感知结果作为新的知识加入图谱,导致耗费了人力物力的新知识无法用于帮助后来的任务。而如何将新知识可以有效的建模加入图谱,并在不影响原有结构的情况下,可以体现每次感知的特殊性和新知识的特点,需要设计特殊的图谱结构,构成演化知识图谱。
而如何从感知用户提交的非规格化数据中提取规格化的信息,需要进行一系列的复杂操作,包括命名实体识别、关系抽取、实体链接以及真相发现等过程。在传统的感知任务中,感知结果往往以感知用户的反馈为标准,将用户提交的信息直接作为结果报告给任务发布者,给后续的任务利用带来了困难。而传统的实体链接方法,一般是通过考虑单个实体上下文的词频等信息进行匹配,却忽略了全体实体间的内在关系,导致链接偏差。如何将感知用户反馈的非规格化信息进行有效的提取匹配甚至进行可信度验证,是对新知识质量进行把关的关键。
发明内容
为解决上述问题,本发明公开了一种以群智感知任务为中心的知识图谱构建方法,主要提出了群智感知任务图谱构建的结构,以及处理感知数据的一系列技术,着重当下知识图谱信息难以融入群智感知任务的难题。通过设计结构良好的允许图谱动态演化的以群智感知任务为中心的知识图谱,可以将每次感知任务反馈的数据和感知人员信息很好的整合进入图谱。此外,针对感知结果,处理过程还包括提取规整数据的命名实体识别和关系抽取方法、迭代式的实体链接方法和感知结果可信度的评估方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:以群智感知任务为中心的演化知识图谱构造方法,该方法包括以下步骤:
步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task。对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点。每个子任务有 hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象 hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值。
步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据 T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链。
步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M 与知识图谱中节点E进行匹配。利用迭代式搜索算法,首先得到描述实体M 的候选节点集
Figure BDA0002710121400000031
在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配。则 M-R-M关系可以构造成E-R-E关系链。
步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息。最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。
进一步的,步骤(2)中,采用采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:
步骤(2.1)利用业内公开的标注数据集作为训练样本。在命名实体识别中,采用双向LSTM-CRF模型。首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:
Figure BDA0002710121400000041
其中,Tc为映射函数,将字词映射得到特定的嵌入向量,
Figure BDA0002710121400000042
为对应于词cj的词向量。
步骤(2.2)将词向量
Figure BDA0002710121400000043
输入双向LSTM网络中,将正反方向LSTM模型输出的向量进行拼接得到输出向量
Figure BDA0002710121400000044
将该向量输入CRF层,并进而得到预测的标签Lj输出。其中,CRF条件随机场可以形式化的表示为:
Figure BDA0002710121400000045
其中,输出的分数是每个词ci映射到tagj的概率。在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率。矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率。
根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。
Figure BDA0002710121400000046
在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj
步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集。首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息。随后,构建关系词字典,用于匹配动词中的描述过程。对于非精确匹配的动词等,利用编辑距离计算相似度,高于某个阈值者认为匹配。最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,如:“奥巴马”-“出生”-“夏威夷”。将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。
进一步的,步骤(3)中,采用迭代式实体链接方式进行实体链接,具体步骤为:
步骤(3.1)将当前时间节点的知识图谱Gt作为迭代训练的知识图谱基准,t表示时间节点,时间节点按照实际使用用途确定,一般以24小时为一周期节点。对该图谱Gt进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据描述实体的字符串在知识图谱中筛选候选实体集合。比较字符串相似度时利用字符串的汉明距离计算字符串差异,对于较短的字符串,则利用Jaccard系数处理,得到候选实体列表candidatesj(cj)。其中汉明距离相似度的定义为:
Figure BDA0002710121400000051
Jaccard系数的定义为:
Figure BDA0002710121400000052
其中,s、t为要比较的字符串。
如果描述实体中已有确定的ID(如身份证号、汽车牌、URL等),可以直接按照ID号码与知识图谱中实体进行匹配。
步骤(3.3)针对候选实体列表{candidatesj(cj)},计算各个实体的流行度,作为描述实体加权初始化的权重。根据该权重,得到描述实体的初始化Embedding:
Figure BDA0002710121400000061
其中,l为候选实体的Embedding,q为描述实体与候选实体的编辑距离, p为流行度权重,N为候选集的大小,v为描述实体的初始化字向量。流行度定义为:
Figure BDA0002710121400000062
其中,分子部分为候选实体在感知图谱中连接的边的数量,分母部分为候选集全部边的总数。
步骤(3.4)从步骤(2)中,可以得到用户提交的感知信息{ci:Lk:cj}。利用这些信息构造新的子图G′,G′的形式为:构造一个特殊节点用于表示本次感知任务,集合中的全部实体分别构造成新节点,并与该特殊节点相连,而节点之间则按照关系构造边进行连接。除此之外,将实体对应的节点与候选实体的节点相连。
步骤(3.5)建立“已匹配”集,将步骤(3.2)中所述的已经匹配的实体,以及候选集大小为1的实体加入“已匹配”集;
步骤(3.6)对步骤(3.4)构造的子图G′进行迭代式表示学习。对图G′进行表示学习中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的 Embedding,将其与候选实体的Embedding进行余弦相似度比较,如果相似度大于某个阈值(一般取0.94),则将该实体加入“已匹配”集,重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6)继续循环。算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
进一步的,步骤(4)中,采用感知人员可信度检测办法,具体步骤为:
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
Figure BDA0002710121400000071
其中,
Figure BDA0002710121400000072
表示除该工作者外他人数据的集合,disij表示对问题j其他工作者i与该工作者数据的差异,如果为0则表示两者对同一任务提交的数据相同。
对恶意工作者可以通过如下公式检测:
Figure BDA0002710121400000081
其中,S是所有任务的集合,
Figure BDA0002710121400000082
表示在工作者w所提交数据中任务s所占的频数,分母即该工作者所提交数据任务的其他工作者的总提交数。
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
Figure BDA0002710121400000083
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制。
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数。原因是大多数工作者的数据更接近真实值。
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差。该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
Figure BDA0002710121400000091
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小。
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比。根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高。
Figure BDA0002710121400000092
通过计算该次任务下,某感知人员的可信度Trusti,可以作为评估感知结果可信度的办法,根据不同任务种类或任务发布者的要求,可以缩放可信度阈值。
有益效果:本发明的技术方案具有以下有益技术效果:
(1)通过以群智感知任务为中心构建知识图谱子图,可以有效地将不同感知任务进行区分,同时又通过知识图谱节点和边的联系与知识库知识联系了起来。通过构建子图的方式,图谱可以随着感知任务的增加不断动态增加信息,构成图谱的演化过程。
(2)通过引入表示学习的方式,将实体链接的过程进行全局处理,可以巧妙地缓解该NP难问题。
(3)通过对感知人员历史信息的建模,可以对感知信息的可信度进行推断,提高感知信息的质量。
附图说明
图1以群智感知任务为中心的知识图谱构建流程图;
图2以群智感知任务为中心的知识图谱本体图;
图3演化知识图谱实例图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明的目标是构建以群智感知任务为中心的知识图谱,其中包括知识图谱结构的构建,感知信息的命名实体识别和关系抽取,实体链接和感知信息可靠性评估。知识图谱是结构化的语义知识库,可以用于描述真实世界中的概念及其相互关系,是由“实体-关系-实体”三元组构成的集合。在群智感知任务知识图谱中,实体表示感知对象(如POI等)、感知人员、甚至特定日期等;实体与实体之间的联系被称为关系,如:“玄武湖”“位于”“玄武湖景区”。
本发明将感知任务的数据以结构化的图谱进行存储,用户在感知平台上获取任务后,向平台回报感知信息,通过命名实体识别得到用户描述中提到的实体,通过关系抽取得到实体间的关系,利用迭代式实体链接办法将描述实体与知识库中存在的实体进行匹配和链接,最后对用户反馈的信息可信度做出评估。具体流程如附图1所示。本发明具体执行步骤如下:
步骤(1)在知识图谱中,构建以群智感知任务为中心的子图,其结构如图3所示,图谱的本体图如图2所示。任务发布者在感知平台上发布感知任务Application,描述该任务时可以添加相关信息,如感知地点、发布者、时间节点等,同时在改任务下生成若干子任务Task。感知人员Actor接到感知平台发布的感知任务后,前往目标位置对目标实体进行感知,结束后向平台反馈感知结果。用户感知的对象会有多个状态State,用于全方位描述感知对象的信息。每次感知的状态State下标记感知人员Actor、感知时间、感知对象POI,以及更加具体描述的属性值,按照key/value对保存。
步骤(2)感知人员进行感知之后,通过平台提交感知数据,对感知数据运用命名实体识别办法和关系抽取办法识别相关描述实体和对应的关系。
步骤(2.1)用户反馈的感知数据往往是非规格化的数据(除非任务发布者发布了特定格式模板)。首先将用户输入进行分词操作,在GloVe向量表中查找对应的词向量。比如将“玄武湖附近举办了烟花表演”分词为:“玄武湖”、“附近”、“举办”、“烟花表演”等,分别查找对应的词向量作为后续步骤的输入。
步骤(2.2)将字向量输入已经训练好的双向LSTM网络中,将正反方向输出的向量进行拼接
Figure BDA0002710121400000111
将得到的拼接向量输入 CRF层,并进而得到预测的标签输出。
如上输入,可得“玄武湖”、“举办”、“烟花表演”等的映射集为: {“玄武湖”:“名词”,“举办”:“动词”,“烟花表演”:“名词”}。
步骤(2.3)根据步骤(2.2)得到的结果,构造为{“玄武湖”-“举办”-“烟花表演”}表。
步骤(3)对相关描述实体,运用迭代式的实体链接办法进行实体链接,将感知人员描述的不规整的数据映射到知识图谱中的规整数据中。
步骤(3.1)将当前时间节点的知识图谱(比如城市知识图谱数据)作为迭代训练的知识图谱基准,时间节点按照实际使用用途确定,一般按照24小时为一周期节点。对该图谱进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据步骤(2)得到的映射集,找到其描述实体的候选实体集合。如:“玄武湖”匹配到了“玄武区”、“玄武门”等实体,构成“玄武湖”的候选实体。而“烟花表演”,因为知识图谱中只存在对应的“烟火表演”一种实体,算法将其加入“已匹配集”。
步骤(3.3)根据候选集中各个实体的流行度,为“玄武湖”等实体进行初始化。假设“玄武湖”的流行度为0.35,“玄武区”的流行度为“0.5”,“玄武门”的流行度为“0.15”。根据“玄武湖”描述实体与候选实体的编辑距离,可得各个候选实体的权重为:0.6、0.3、 0.1。“玄武湖”描述实体的Embedding便是由其候选实体Embedding 的加权求和所得。
步骤(3.4)根据步骤(2)得到的映射集,构造相应的子图。在子图中,“玄武湖”等实体与其他实体通过“关系”边相连,这些实体共同与表示本次任务的特殊节点相连。而“玄武湖”等实体则通过“候选”关系的边,与其候选实体进行连接。
步骤(3.5)建立“已匹配”集,将(3.2)中所述如“烟花表演”等加入“已匹配”集,将候选实体集大小为1的描述实体加入“已匹配”集。
步骤(3.6)对步骤(3.4)构造的子图进行迭代式表示学习。在表示学习过程中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的 Embedding,如“玄武湖”实体的Embedding,将其与其候选实体集中候选实体进行余弦相似度计算,发现“玄武湖”描述实体与“玄武湖”候选实体相似度最高,为0.978,则将该实体加入“已匹配”集;重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6) 继续循环。算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
步骤(4)将感知人员提供的信息进行可信度检测,主要方式为根据感知人员历史感知信息进行可信度评分,丢弃评分过低的感知信息。最后将可信消息构建图谱子图,并加入原始图谱中,形成图谱的演化过程。
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
Figure BDA0002710121400000141
其中,
Figure BDA0002710121400000142
表示除该工作者外他人数据的集合,disij表示对问题j其他工作者i与该工作者数据的差异,如果为0则表示两者对同一任务提交的数据相同。
对恶意工作者可以通过如下公式检测:
Figure BDA0002710121400000143
其中,S是所有任务的集合,
Figure BDA0002710121400000144
表示在工作者w所提交数据中任务s所占的频数,分母即该工作者所提交数据任务的其他工作者的总提交数。
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
Figure BDA0002710121400000151
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制。
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数。原因是大多数工作者的数据更接近真实值。
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差。该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
Figure BDA0002710121400000152
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小。
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比。根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高。
Figure BDA0002710121400000153
通过计算该次任务下,某感知人员的可信度Trusti,作为评估感知结果可信度的办法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (4)

1.以群智感知任务为中心的演化知识图谱构造方法,其特征在于,该方法包括以下步骤:
步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task;对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点;每个子任务有hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值;
步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链;
步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M与知识图谱中节点E进行匹配;利用迭代式搜索算法,首先得到描述实体M的候选节点集
Figure FDA0002710121390000011
在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配;则M-R-M关系可以构造成E-R-E关系链;
步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息;最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。
2.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(2)中,采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:
步骤(2.1)利用业内公开的标注数据集作为训练样本;在命名实体识别中,采用双向LSTM-CRF模型;首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:
Figure FDA0002710121390000021
其中,Tc为映射函数,将字词映射得到特定的嵌入向量,
Figure FDA0002710121390000022
为对应于词cj的词向量;
步骤(2.2)将词向量
Figure FDA0002710121390000023
输入双向LSTM网络中,将正反方向LSTM模型输出的向量进行拼接得到输出向量
Figure FDA0002710121390000024
将该向量输入CRF层,并进而得到预测的标签Lj输出。其中,CRF条件随机场可以形式化的表示为:
Figure FDA0002710121390000025
其中,输出的分数是每个词ci映射到tagj的概率;在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率;矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率;
根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。
Figure FDA0002710121390000031
在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj
步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集;首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息;随后,构建关系词字典,用于匹配动词中的描述过程;对于非精确匹配的动词,利用编辑距离计算相似度,高于某个阈值者认为匹配;最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。
3.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(3)中,采用迭代式实体链接方式进行实体链接,具体步骤为:
步骤(3.1)将当前时间节点的知识图谱Gt作为迭代训练的知识图谱基准,t表示时间节点,时间节点按照实际使用用途确定,一般以24小时为一周期节点;对该图谱Gt进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据描述实体的字符串在知识图谱中筛选候选实体集合;比较字符串相似度时利用字符串的汉明距离计算字符串差异,对于较短的字符串,则利用Jaccard系数处理,得到候选实体列表candidatesj(cj);其中汉明距离相似度的定义为:
Figure FDA0002710121390000041
Jaccard系数的定义为:
Figure FDA0002710121390000042
其中,s、t为要比较的字符串;
如果描述实体中已有确定的ID(如身份证号、汽车牌、URL等),可以直接按照ID号码与知识图谱中实体进行匹配;
步骤(3.3)针对候选实体列表{candidatesj(cj)},计算各个实体的流行度,作为描述实体加权初始化的权重。根据该权重,得到描述实体的初始化Embedding:
Figure FDA0002710121390000043
其中,l为候选实体的Embedding,q为描述实体与候选实体的编辑距离,p为流行度权重,N为候选集的大小,v为描述实体的初始化字向量。流行度定义为:
Figure FDA0002710121390000044
其中,分子部分为候选实体在感知图谱中连接的边的数量,分母部分为候选集全部边的总数;
步骤(3.4)从步骤(2)中,可以得到用户提交的感知信息{ci:Lk:cj}。利用这些信息构造新的子图G′,G′的形式为:构造一个特殊节点用于表示本次感知任务,集合中的全部实体分别构造成新节点,并与该特殊节点相连,而节点之间则按照关系构造边进行连接。除此之外,将实体对应的节点与候选实体的节点相连;
步骤(3.5)建立“已匹配”集,将步骤(3.2)中所述的已经匹配的实体,以及候选集大小为1的实体加入“已匹配”集;
步骤(3.6)对步骤(3.4)构造的子图G′进行迭代式表示学习;对图G′进行表示学习中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的Embedding,将其与候选实体的Embedding进行余弦相似度比较,如果相似度大于某个阈值(一般取0.94),则将该实体加入“已匹配”集,重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6)继续循环;算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
4.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(4)中,采用感知人员可信度检测办法,
具体步骤为:
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
Figure FDA0002710121390000061
其中,
Figure FDA0002710121390000062
表示除该工作者外他人数据的集合,disij表示对问题j其他工作者i与该工作者数据的差异,如果为0则表示两者对同一任务提交的数据相同;
对恶意工作者可以通过如下公式检测:
Figure FDA0002710121390000063
其中,S是所有任务的集合,
Figure FDA0002710121390000064
表示在工作者w所提交数据中任务s所占的频数,分母即该工作者所提交数据任务的其他工作者的总提交数;
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
Figure FDA0002710121390000071
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制;
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数;原因是大多数工作者的数据更接近真实值;
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差;该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
Figure FDA0002710121390000072
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小;
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比;根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高;
Figure FDA0002710121390000081
通过计算该次任务下,某感知人员的可信度Trusti,可以作为评估感知结果可信度的办法,根据不同任务种类或任务发布者的要求,可以缩放可信度阈值。
CN202011053028.3A 2020-09-29 2020-09-29 一种以群智感知任务为中心的知识图谱构建方法 Active CN112463976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011053028.3A CN112463976B (zh) 2020-09-29 2020-09-29 一种以群智感知任务为中心的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011053028.3A CN112463976B (zh) 2020-09-29 2020-09-29 一种以群智感知任务为中心的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN112463976A true CN112463976A (zh) 2021-03-09
CN112463976B CN112463976B (zh) 2024-05-24

Family

ID=74833537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011053028.3A Active CN112463976B (zh) 2020-09-29 2020-09-29 一种以群智感知任务为中心的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112463976B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344464A (zh) * 2021-07-12 2021-09-03 哈尔滨理工大学 面向移动群智感知系统的任务与用户潜在关系挖掘方法
CN114048148A (zh) * 2022-01-13 2022-02-15 广东拓思软件科学园有限公司 一种众包测试报告推荐方法、装置及电子设备
CN115687866A (zh) * 2022-09-27 2023-02-03 广东数源信息科技有限公司 一种数据治理用数据筛选方法及系统
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质
TWI811745B (zh) * 2021-07-26 2023-08-11 兆豐國際商業銀行股份有限公司 用於預測瀏覽網址類別標籤的伺服器及方法
CN116681222A (zh) * 2023-03-30 2023-09-01 苏州大学 满足时间限制的多轮不确定的群智感知任务分配方法
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN111160564A (zh) * 2019-12-17 2020-05-15 电子科技大学 一种基于特征张量的中文知识图谱表示学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN111160564A (zh) * 2019-12-17 2020-05-15 电子科技大学 一种基于特征张量的中文知识图谱表示学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNCHI ZHANG 等: "Topic-informed neural approach for biomedical event extraction", ARTIFICIAL INTELLIGENCE IN MEDICINE, 26 December 2019 (2019-12-26), pages 1 - 9 *
曾义夫 等: "基于图表示学习的会话感知推荐模型", 计算机研究与发展, vol. 57, no. 3, 15 March 2020 (2020-03-15), pages 590 - 603 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344464A (zh) * 2021-07-12 2021-09-03 哈尔滨理工大学 面向移动群智感知系统的任务与用户潜在关系挖掘方法
TWI811745B (zh) * 2021-07-26 2023-08-11 兆豐國際商業銀行股份有限公司 用於預測瀏覽網址類別標籤的伺服器及方法
CN114048148A (zh) * 2022-01-13 2022-02-15 广东拓思软件科学园有限公司 一种众包测试报告推荐方法、装置及电子设备
CN115687866A (zh) * 2022-09-27 2023-02-03 广东数源信息科技有限公司 一种数据治理用数据筛选方法及系统
CN115795056A (zh) * 2023-01-04 2023-03-14 中国电子科技集团公司第十五研究所 非结构化信息构建知识图谱的方法、服务器及存储介质
CN116681222A (zh) * 2023-03-30 2023-09-01 苏州大学 满足时间限制的多轮不确定的群智感知任务分配方法
CN116821712A (zh) * 2023-08-25 2023-09-29 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置
CN116821712B (zh) * 2023-08-25 2023-12-19 中电科大数据研究院有限公司 非结构化文本与知识图谱的语义匹配方法及装置

Also Published As

Publication number Publication date
CN112463976B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN112463976A (zh) 一种以群智感知任务为中心的知识图谱构建方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN106815252B (zh) 一种搜索方法和设备
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN107463658B (zh) 文本分类方法及装置
US9703860B2 (en) Returning related previously answered questions based on question affinity
Li et al. Mixed supervised object detection with robust objectness transfer
CN107844533A (zh) 一种智能问答系统及分析方法
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
CN109271539A (zh) 一种基于深度学习的图像自动标注方法及装置
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
WO2021112984A1 (en) Feature and context based search result generation
CN113297369A (zh) 基于知识图谱子图检索的智能问答系统
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN117151429B (zh) 一种基于知识图谱的政务服务流程编排方法及装置
JP7457436B2 (ja) 少数ショット時間的行動局所化を容易化するシステム、方法、プログラム
Kou et al. Diversity-driven automated web API recommendation based on implicit requirements
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
Jin et al. Textual content prediction via fuzzy attention neural network model without predefined knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant