CN112463976A - 一种以群智感知任务为中心的知识图谱构建方法 - Google Patents
一种以群智感知任务为中心的知识图谱构建方法 Download PDFInfo
- Publication number
- CN112463976A CN112463976A CN202011053028.3A CN202011053028A CN112463976A CN 112463976 A CN112463976 A CN 112463976A CN 202011053028 A CN202011053028 A CN 202011053028A CN 112463976 A CN112463976 A CN 112463976A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- task
- perception
- workers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000008447 perception Effects 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 244000025254 Cannabis sativa Species 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000010845 search algorithm Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012358 sourcing Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种以群智感知任务为中心的演化知识图谱构建技术。本发明本发明提出了一种新型的以群智感知任务为中心的图谱结构,通过将该以该图谱结构的信息构建子图并入基准知识图谱,可以形成知识图谱演化;从感知人员获取群智感知任务并上传感知结果开始,本发明利用双向LSTM‑CRF方式进行命名实体识别,并利用预设定的格式进行关系抽取;随后,通过迭代式的实体链接方法,在每次迭代过程中进行表示学习,将最匹配的实体进行标记,不断迭代提取直到收敛;最后对信息进行可信度分析,结合用户历史提交的结果评估其感知结果的可信度。
Description
技术领域
本发明涉及知识图谱及其应用领域,主要涉及以群智感知任务为中心的演化知识图谱的构建技术。
背景技术
随着大数据、人工智能等技术的快速发展,业界对高质量的标注信息提出了更大的需求。事实上,我们的生活的每时每刻都在产生数据,并被各类设备感知并记录。但是这些数据存在一个不可忽视的问题,就是数据庞大且质量低下。大量的数据被记录,但是从中却无法挖掘有效的信息。比如,很多人使用微博等应用,每天会在不同地点产生很多不同的消息,消息中事实上包含了一定的信息,但是这些信息却难以利用。而通过群智感知任务,让专门的一些人针对专门的任务和专门的对象进行感知,即信息收集,可以提高信息的质量。如何更好的处理建模和保存感知的结果是当下亟需解决的问题。
为了更好地保存和处理群智感知任务反馈的结果,保证数据的高质量,学术界提出了知识图谱等相关的概念。通常情况下,人类感知者产生的数据,往往是不规整的数据,计算机难以处理和理解并利用这种类型的数据。利用知识图谱,可以将复杂的人类知识表征为简单的三元组模式,即“实体-关系-实体”或“实体-关系-属性”,按照这种方式构建一张规模庞大的知识图谱,计算机便可以在此基础上进行推理和判断等后续处理。将知识图谱引入各个应用方向,可以显著提高模型的背景知识和理解能力。将感知结果也以知识图谱的方式进行保存,可以帮助需要使用感知数据的应用高效的利用这些信息。在传统的知识图谱中,只是将基准知识图谱作为背景知识辅助利用,并未将感知结果作为新的知识加入图谱,导致耗费了人力物力的新知识无法用于帮助后来的任务。而如何将新知识可以有效的建模加入图谱,并在不影响原有结构的情况下,可以体现每次感知的特殊性和新知识的特点,需要设计特殊的图谱结构,构成演化知识图谱。
而如何从感知用户提交的非规格化数据中提取规格化的信息,需要进行一系列的复杂操作,包括命名实体识别、关系抽取、实体链接以及真相发现等过程。在传统的感知任务中,感知结果往往以感知用户的反馈为标准,将用户提交的信息直接作为结果报告给任务发布者,给后续的任务利用带来了困难。而传统的实体链接方法,一般是通过考虑单个实体上下文的词频等信息进行匹配,却忽略了全体实体间的内在关系,导致链接偏差。如何将感知用户反馈的非规格化信息进行有效的提取匹配甚至进行可信度验证,是对新知识质量进行把关的关键。
发明内容
为解决上述问题,本发明公开了一种以群智感知任务为中心的知识图谱构建方法,主要提出了群智感知任务图谱构建的结构,以及处理感知数据的一系列技术,着重当下知识图谱信息难以融入群智感知任务的难题。通过设计结构良好的允许图谱动态演化的以群智感知任务为中心的知识图谱,可以将每次感知任务反馈的数据和感知人员信息很好的整合进入图谱。此外,针对感知结果,处理过程还包括提取规整数据的命名实体识别和关系抽取方法、迭代式的实体链接方法和感知结果可信度的评估方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:以群智感知任务为中心的演化知识图谱构造方法,该方法包括以下步骤:
步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task。对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点。每个子任务有 hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象 hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值。
步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据 T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链。
步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M 与知识图谱中节点E进行匹配。利用迭代式搜索算法,首先得到描述实体M 的候选节点集在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配。则 M-R-M关系可以构造成E-R-E关系链。
步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息。最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。
进一步的,步骤(2)中,采用采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:
步骤(2.1)利用业内公开的标注数据集作为训练样本。在命名实体识别中,采用双向LSTM-CRF模型。首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:其中,Tc为映射函数,将字词映射得到特定的嵌入向量,为对应于词cj的词向量。
其中,输出的分数是每个词ci映射到tagj的概率。在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率。矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率。
根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。
在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj。
步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集。首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息。随后,构建关系词字典,用于匹配动词中的描述过程。对于非精确匹配的动词等,利用编辑距离计算相似度,高于某个阈值者认为匹配。最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,如:“奥巴马”-“出生”-“夏威夷”。将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。
进一步的,步骤(3)中,采用迭代式实体链接方式进行实体链接,具体步骤为:
步骤(3.1)将当前时间节点的知识图谱Gt作为迭代训练的知识图谱基准,t表示时间节点,时间节点按照实际使用用途确定,一般以24小时为一周期节点。对该图谱Gt进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据描述实体的字符串在知识图谱中筛选候选实体集合。比较字符串相似度时利用字符串的汉明距离计算字符串差异,对于较短的字符串,则利用Jaccard系数处理,得到候选实体列表candidatesj(cj)。其中汉明距离相似度的定义为:
Jaccard系数的定义为:
其中,s、t为要比较的字符串。
如果描述实体中已有确定的ID(如身份证号、汽车牌、URL等),可以直接按照ID号码与知识图谱中实体进行匹配。
步骤(3.3)针对候选实体列表{candidatesj(cj)},计算各个实体的流行度,作为描述实体加权初始化的权重。根据该权重,得到描述实体的初始化Embedding:
其中,l为候选实体的Embedding,q为描述实体与候选实体的编辑距离, p为流行度权重,N为候选集的大小,v为描述实体的初始化字向量。流行度定义为:
其中,分子部分为候选实体在感知图谱中连接的边的数量,分母部分为候选集全部边的总数。
步骤(3.4)从步骤(2)中,可以得到用户提交的感知信息{ci:Lk:cj}。利用这些信息构造新的子图G′,G′的形式为:构造一个特殊节点用于表示本次感知任务,集合中的全部实体分别构造成新节点,并与该特殊节点相连,而节点之间则按照关系构造边进行连接。除此之外,将实体对应的节点与候选实体的节点相连。
步骤(3.5)建立“已匹配”集,将步骤(3.2)中所述的已经匹配的实体,以及候选集大小为1的实体加入“已匹配”集;
步骤(3.6)对步骤(3.4)构造的子图G′进行迭代式表示学习。对图G′进行表示学习中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的 Embedding,将其与候选实体的Embedding进行余弦相似度比较,如果相似度大于某个阈值(一般取0.94),则将该实体加入“已匹配”集,重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6)继续循环。算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
进一步的,步骤(4)中,采用感知人员可信度检测办法,具体步骤为:
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
对恶意工作者可以通过如下公式检测:
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制。
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数。原因是大多数工作者的数据更接近真实值。
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差。该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小。
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比。根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高。
通过计算该次任务下,某感知人员的可信度Trusti,可以作为评估感知结果可信度的办法,根据不同任务种类或任务发布者的要求,可以缩放可信度阈值。
有益效果:本发明的技术方案具有以下有益技术效果:
(1)通过以群智感知任务为中心构建知识图谱子图,可以有效地将不同感知任务进行区分,同时又通过知识图谱节点和边的联系与知识库知识联系了起来。通过构建子图的方式,图谱可以随着感知任务的增加不断动态增加信息,构成图谱的演化过程。
(2)通过引入表示学习的方式,将实体链接的过程进行全局处理,可以巧妙地缓解该NP难问题。
(3)通过对感知人员历史信息的建模,可以对感知信息的可信度进行推断,提高感知信息的质量。
附图说明
图1以群智感知任务为中心的知识图谱构建流程图;
图2以群智感知任务为中心的知识图谱本体图;
图3演化知识图谱实例图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明的目标是构建以群智感知任务为中心的知识图谱,其中包括知识图谱结构的构建,感知信息的命名实体识别和关系抽取,实体链接和感知信息可靠性评估。知识图谱是结构化的语义知识库,可以用于描述真实世界中的概念及其相互关系,是由“实体-关系-实体”三元组构成的集合。在群智感知任务知识图谱中,实体表示感知对象(如POI等)、感知人员、甚至特定日期等;实体与实体之间的联系被称为关系,如:“玄武湖”“位于”“玄武湖景区”。
本发明将感知任务的数据以结构化的图谱进行存储,用户在感知平台上获取任务后,向平台回报感知信息,通过命名实体识别得到用户描述中提到的实体,通过关系抽取得到实体间的关系,利用迭代式实体链接办法将描述实体与知识库中存在的实体进行匹配和链接,最后对用户反馈的信息可信度做出评估。具体流程如附图1所示。本发明具体执行步骤如下:
步骤(1)在知识图谱中,构建以群智感知任务为中心的子图,其结构如图3所示,图谱的本体图如图2所示。任务发布者在感知平台上发布感知任务Application,描述该任务时可以添加相关信息,如感知地点、发布者、时间节点等,同时在改任务下生成若干子任务Task。感知人员Actor接到感知平台发布的感知任务后,前往目标位置对目标实体进行感知,结束后向平台反馈感知结果。用户感知的对象会有多个状态State,用于全方位描述感知对象的信息。每次感知的状态State下标记感知人员Actor、感知时间、感知对象POI,以及更加具体描述的属性值,按照key/value对保存。
步骤(2)感知人员进行感知之后,通过平台提交感知数据,对感知数据运用命名实体识别办法和关系抽取办法识别相关描述实体和对应的关系。
步骤(2.1)用户反馈的感知数据往往是非规格化的数据(除非任务发布者发布了特定格式模板)。首先将用户输入进行分词操作,在GloVe向量表中查找对应的词向量。比如将“玄武湖附近举办了烟花表演”分词为:“玄武湖”、“附近”、“举办”、“烟花表演”等,分别查找对应的词向量作为后续步骤的输入。
如上输入,可得“玄武湖”、“举办”、“烟花表演”等的映射集为: {“玄武湖”:“名词”,“举办”:“动词”,“烟花表演”:“名词”}。
步骤(2.3)根据步骤(2.2)得到的结果,构造为{“玄武湖”-“举办”-“烟花表演”}表。
步骤(3)对相关描述实体,运用迭代式的实体链接办法进行实体链接,将感知人员描述的不规整的数据映射到知识图谱中的规整数据中。
步骤(3.1)将当前时间节点的知识图谱(比如城市知识图谱数据)作为迭代训练的知识图谱基准,时间节点按照实际使用用途确定,一般按照24小时为一周期节点。对该图谱进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据步骤(2)得到的映射集,找到其描述实体的候选实体集合。如:“玄武湖”匹配到了“玄武区”、“玄武门”等实体,构成“玄武湖”的候选实体。而“烟花表演”,因为知识图谱中只存在对应的“烟火表演”一种实体,算法将其加入“已匹配集”。
步骤(3.3)根据候选集中各个实体的流行度,为“玄武湖”等实体进行初始化。假设“玄武湖”的流行度为0.35,“玄武区”的流行度为“0.5”,“玄武门”的流行度为“0.15”。根据“玄武湖”描述实体与候选实体的编辑距离,可得各个候选实体的权重为:0.6、0.3、 0.1。“玄武湖”描述实体的Embedding便是由其候选实体Embedding 的加权求和所得。
步骤(3.4)根据步骤(2)得到的映射集,构造相应的子图。在子图中,“玄武湖”等实体与其他实体通过“关系”边相连,这些实体共同与表示本次任务的特殊节点相连。而“玄武湖”等实体则通过“候选”关系的边,与其候选实体进行连接。
步骤(3.5)建立“已匹配”集,将(3.2)中所述如“烟花表演”等加入“已匹配”集,将候选实体集大小为1的描述实体加入“已匹配”集。
步骤(3.6)对步骤(3.4)构造的子图进行迭代式表示学习。在表示学习过程中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的 Embedding,如“玄武湖”实体的Embedding,将其与其候选实体集中候选实体进行余弦相似度计算,发现“玄武湖”描述实体与“玄武湖”候选实体相似度最高,为0.978,则将该实体加入“已匹配”集;重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6) 继续循环。算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
步骤(4)将感知人员提供的信息进行可信度检测,主要方式为根据感知人员历史感知信息进行可信度评分,丢弃评分过低的感知信息。最后将可信消息构建图谱子图,并加入原始图谱中,形成图谱的演化过程。
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
对恶意工作者可以通过如下公式检测:
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制。
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数。原因是大多数工作者的数据更接近真实值。
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差。该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小。
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比。根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高。
通过计算该次任务下,某感知人员的可信度Trusti,作为评估感知结果可信度的办法。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (4)
1.以群智感知任务为中心的演化知识图谱构造方法,其特征在于,该方法包括以下步骤:
步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task;对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点;每个子任务有hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值;
步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链;
步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M与知识图谱中节点E进行匹配;利用迭代式搜索算法,首先得到描述实体M的候选节点集在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配;则M-R-M关系可以构造成E-R-E关系链;
步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息;最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。
2.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(2)中,采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:
步骤(2.1)利用业内公开的标注数据集作为训练样本;在命名实体识别中,采用双向LSTM-CRF模型;首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:其中,Tc为映射函数,将字词映射得到特定的嵌入向量,为对应于词cj的词向量;
其中,输出的分数是每个词ci映射到tagj的概率;在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率;矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率;
根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。
在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj;
步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集;首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息;随后,构建关系词字典,用于匹配动词中的描述过程;对于非精确匹配的动词,利用编辑距离计算相似度,高于某个阈值者认为匹配;最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。
3.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(3)中,采用迭代式实体链接方式进行实体链接,具体步骤为:
步骤(3.1)将当前时间节点的知识图谱Gt作为迭代训练的知识图谱基准,t表示时间节点,时间节点按照实际使用用途确定,一般以24小时为一周期节点;对该图谱Gt进行Node2Vec表示学习,得到各节点的Embedding。
步骤(3.2)根据描述实体的字符串在知识图谱中筛选候选实体集合;比较字符串相似度时利用字符串的汉明距离计算字符串差异,对于较短的字符串,则利用Jaccard系数处理,得到候选实体列表candidatesj(cj);其中汉明距离相似度的定义为:
Jaccard系数的定义为:
其中,s、t为要比较的字符串;
如果描述实体中已有确定的ID(如身份证号、汽车牌、URL等),可以直接按照ID号码与知识图谱中实体进行匹配;
步骤(3.3)针对候选实体列表{candidatesj(cj)},计算各个实体的流行度,作为描述实体加权初始化的权重。根据该权重,得到描述实体的初始化Embedding:
其中,l为候选实体的Embedding,q为描述实体与候选实体的编辑距离,p为流行度权重,N为候选集的大小,v为描述实体的初始化字向量。流行度定义为:
其中,分子部分为候选实体在感知图谱中连接的边的数量,分母部分为候选集全部边的总数;
步骤(3.4)从步骤(2)中,可以得到用户提交的感知信息{ci:Lk:cj}。利用这些信息构造新的子图G′,G′的形式为:构造一个特殊节点用于表示本次感知任务,集合中的全部实体分别构造成新节点,并与该特殊节点相连,而节点之间则按照关系构造边进行连接。除此之外,将实体对应的节点与候选实体的节点相连;
步骤(3.5)建立“已匹配”集,将步骤(3.2)中所述的已经匹配的实体,以及候选集大小为1的实体加入“已匹配”集;
步骤(3.6)对步骤(3.4)构造的子图G′进行迭代式表示学习;对图G′进行表示学习中,保持“已匹配”集中节点的Embedding与相匹配的节点Embedding一致且固定不变;表示学习结束后,得到各描述实体cj的Embedding,将其与候选实体的Embedding进行余弦相似度比较,如果相似度大于某个阈值(一般取0.94),则将该实体加入“已匹配”集,重复步骤(3.6),进行下一轮循环。
步骤(3.7)在迭代过程中,如果连续两次迭代没有新实体进入“已匹配”集,则在本次循环结束后,按照余弦相似度,将相似度最大的前数个实体加入“已匹配”集(一般取10%),随后返回步骤(3.6)继续循环;算法设置早停模式,如果迭代轮次超过某个轮次(根据数据规模设置),则停止运算,将剩余实体全部直接匹配。
4.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(4)中,采用感知人员可信度检测办法,
具体步骤为:
步骤(4.1)感知人员上传感知数据后,平台需要对感知人员的可信度进行排名和筛查。感知工作者大致分为三类:1.勤奋的工作者,可以听从指挥,服从任务调度,很好的完成众包任务;2.草率的工作者,一般不具有恶意,但是对待问题不认真不深入,数据质量比较堪忧;3.恶意的工作者,在任务中不能忽视这类工作者的存在,他们的数据往往都是错误甚至故意混淆的。可以使用如下方式检测草率工作者:
对恶意工作者可以通过如下公式检测:
一般来说,前者如果评分大于0.7,后者大于1.6,就可以比较有效的发现工作者中的草率、恶意工作者,随后根据计算结果赋予工作者类型度量值Ti相关权重。
步骤(4.2).在单次任务中,计算该工作者在该次任务类型下数据的可信值:
Trusti=Ti×f(xi)×g(xi)×P(xi)×Q(xi)
其中,Ti为步骤(4.1)所检测的工作者类型,分别为1、2、3;
f(x)考虑工作者最近工作表现:
x为最近持续可信次数,d为工作者建立信誉最少次数,通过d控制信誉增长速度,当交互次数少于d时,增长受到限制;
函数g(x)则通过计算该工作者的数据与其他工作者数据重合度,即该相同数据占全体数据总数;原因是大多数工作者的数据更接近真实值;
P(x)衡量的是工作者所提交数据的地理位置,计算方式为提交位置与其历史平均提交位置偏差;该值为其经常活动范围的反比关系,如果工作者位置偏离经常提交数据的位置,可以在一定程度上对该数据可信度进行惩罚:
其中mi为坐标均值,分母为坐标离散程度的方差,以减少活动范围广泛的工作者的惩罚。α为常量乘子,用以调整结果大小;
Q(x)为主题模型评分,由该数据提供者历史任务类型数量计算而来,即该任务类型数量占该工作者所有数据任务类型总量之比;根据工作者历史众包任务种类,给每个工作者在各个不同任务主题下赋予不同权重,其背后的考虑因素是,在某一任务主题中多次承担任务的工作者可信度更高;
通过计算该次任务下,某感知人员的可信度Trusti,可以作为评估感知结果可信度的办法,根据不同任务种类或任务发布者的要求,可以缩放可信度阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053028.3A CN112463976B (zh) | 2020-09-29 | 2020-09-29 | 一种以群智感知任务为中心的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053028.3A CN112463976B (zh) | 2020-09-29 | 2020-09-29 | 一种以群智感知任务为中心的知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463976A true CN112463976A (zh) | 2021-03-09 |
CN112463976B CN112463976B (zh) | 2024-05-24 |
Family
ID=74833537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011053028.3A Active CN112463976B (zh) | 2020-09-29 | 2020-09-29 | 一种以群智感知任务为中心的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463976B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344464A (zh) * | 2021-07-12 | 2021-09-03 | 哈尔滨理工大学 | 面向移动群智感知系统的任务与用户潜在关系挖掘方法 |
CN114048148A (zh) * | 2022-01-13 | 2022-02-15 | 广东拓思软件科学园有限公司 | 一种众包测试报告推荐方法、装置及电子设备 |
CN115687866A (zh) * | 2022-09-27 | 2023-02-03 | 广东数源信息科技有限公司 | 一种数据治理用数据筛选方法及系统 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
TWI811745B (zh) * | 2021-07-26 | 2023-08-11 | 兆豐國際商業銀行股份有限公司 | 用於預測瀏覽網址類別標籤的伺服器及方法 |
CN116681222A (zh) * | 2023-03-30 | 2023-09-01 | 苏州大学 | 满足时间限制的多轮不确定的群智感知任务分配方法 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
-
2020
- 2020-09-29 CN CN202011053028.3A patent/CN112463976B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
Non-Patent Citations (2)
Title |
---|
JUNCHI ZHANG 等: "Topic-informed neural approach for biomedical event extraction", ARTIFICIAL INTELLIGENCE IN MEDICINE, 26 December 2019 (2019-12-26), pages 1 - 9 * |
曾义夫 等: "基于图表示学习的会话感知推荐模型", 计算机研究与发展, vol. 57, no. 3, 15 March 2020 (2020-03-15), pages 590 - 603 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344464A (zh) * | 2021-07-12 | 2021-09-03 | 哈尔滨理工大学 | 面向移动群智感知系统的任务与用户潜在关系挖掘方法 |
TWI811745B (zh) * | 2021-07-26 | 2023-08-11 | 兆豐國際商業銀行股份有限公司 | 用於預測瀏覽網址類別標籤的伺服器及方法 |
CN114048148A (zh) * | 2022-01-13 | 2022-02-15 | 广东拓思软件科学园有限公司 | 一种众包测试报告推荐方法、装置及电子设备 |
CN115687866A (zh) * | 2022-09-27 | 2023-02-03 | 广东数源信息科技有限公司 | 一种数据治理用数据筛选方法及系统 |
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
CN116681222A (zh) * | 2023-03-30 | 2023-09-01 | 苏州大学 | 满足时间限制的多轮不确定的群智感知任务分配方法 |
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116821712B (zh) * | 2023-08-25 | 2023-12-19 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112463976B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112463976A (zh) | 一种以群智感知任务为中心的知识图谱构建方法 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN106815252B (zh) | 一种搜索方法和设备 | |
CN102902821B (zh) | 基于网络热点话题的图像高级语义标注、检索方法及装置 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN107463658B (zh) | 文本分类方法及装置 | |
US9703860B2 (en) | Returning related previously answered questions based on question affinity | |
Li et al. | Mixed supervised object detection with robust objectness transfer | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US20170169355A1 (en) | Ground Truth Improvement Via Machine Learned Similar Passage Detection | |
CN109271539A (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
KR20170004154A (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN113297369A (zh) | 基于知识图谱子图检索的智能问答系统 | |
CN114155477B (zh) | 一种基于平均教师模型的半监督视频段落定位方法 | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN110929169A (zh) | 基于改进Canopy聚类协同过滤算法的职位推荐方法 | |
CN117151429B (zh) | 一种基于知识图谱的政务服务流程编排方法及装置 | |
JP7457436B2 (ja) | 少数ショット時間的行動局所化を容易化するシステム、方法、プログラム | |
Kou et al. | Diversity-driven automated web API recommendation based on implicit requirements | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
Jin et al. | Textual content prediction via fuzzy attention neural network model without predefined knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |