CN116662579A - 数据处理方法、装置、计算机及存储介质 - Google Patents

数据处理方法、装置、计算机及存储介质 Download PDF

Info

Publication number
CN116662579A
CN116662579A CN202310964760.3A CN202310964760A CN116662579A CN 116662579 A CN116662579 A CN 116662579A CN 202310964760 A CN202310964760 A CN 202310964760A CN 116662579 A CN116662579 A CN 116662579A
Authority
CN
China
Prior art keywords
data
mask
sequence
triplet
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310964760.3A
Other languages
English (en)
Other versions
CN116662579B (zh
Inventor
石志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310964760.3A priority Critical patent/CN116662579B/zh
Publication of CN116662579A publication Critical patent/CN116662579A/zh
Application granted granted Critical
Publication of CN116662579B publication Critical patent/CN116662579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机及存储介质,涉及人工智能领域及云技术领域,该方法包括:获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。采用本申请,可以提高数据处理的效率及准确性。

Description

数据处理方法、装置、计算机及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机及存储介质。
背景技术
目前经常会存在需要为用户提供实体成分推荐和替换服务等的情况,为解决该问题,一般会基于语义相似性或明确的替换规则,实现实体替换。也就是,识别需要替换的实体(记作实体A)的语义,再获取与该需要替换的实体(即实体A)的语义相似的实体(记作实体B),将实体B作为实体A的替换实体,而这一方式,使得一个实体的替换实体完全依赖于该实体的语义,导致在实体替换过程中会忽略从而导致实体替换的准确性较低。或者,直接基于明确的替换规则,获取满足实体的替换规则的替换实体,而这一方式需要不断明确替换规则,还需要部署可以用于对其他实体进行替换的实体集群,需要耗费较多的资源和时间,导致实体替换效率较低。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机及存储介质,可以提高数据处理的准确性及效率。
本申请实施例一方面提供了一种数据处理方法,该方法包括:
获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;
对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;
对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
本申请实施例一方面提供了一种数据处理装置,该装置包括:
序列获取模块,用于获取待更新数据所在的知识三元组的三元组序列;
掩码处理模块,用于基于待更新数据为三元组序列添加掩码数据,生成掩码序列;
掩码预测模块,用于对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;
替换确定模块,用于对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
其中,该序列获取模块,包括:
图谱解析单元,用于获取领域知识图谱,在领域知识图谱中获取待更新数据所在的知识三元组,对知识三元组进行分词处理,得到知识三元组的三元组序列;或者,
信息解析单元,用于获取待处理信息,对待处理信息进行解析,确定待处理信息中的待更新数据,基于待更新数据对待处理信息进行三元组解析,得到包括待更新数据的知识三元组,获取知识三元组的三元组序列。
其中,该掩码处理模块,包括:
方式获取单元,用于获取掩码语言模型的目标掩码添加方式;
掩码添加单元,用于基于目标掩码添加方式及待更新数据在三元组序列中的位置,为三元组序列添加掩码数据,生成掩码序列;
该掩码预测模块,具体用于:
将掩码序列输入掩码语言模型,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据。
其中,该装置还包括:
第一样本获取模块,用于获取第一样本序列,在第一样本序列中确定第一样本数据,获取第一样本数据在第一样本序列中的第一样本位置;
多方式掩码模块,用于基于第一样本位置及第一样本数据,采用M个掩码添加方式分别为第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;
第一样本预测模块,用于采用掩码语言模型分别对M个第一样本掩码序列进行预测,得到M个第一样本掩码序列分别对应的第一样本预测数据;
方式确定模块,用于基于M个第一样本掩码序列分别对应的第一样本预测数据,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式。
其中,该方式确定模块,包括:
第一检测单元,用于将M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到M个第一样本掩码序列分别对应的样本预测准确度;
第二检测单元,用于将第一样本序列输入三元组检测网络中进行三元组检测,得到第一样本序列所对应的第一样本准确度;
质量确定单元,用于将M个样本预测准确度分别与第一样本准确度进行准确度对比,得到M个掩码添加方式分别对应的添加质量指标;
方式确定单元,用于将添加质量指标最大的掩码添加方式,确定为掩码语言模型的目标掩码添加方式。
其中,该装置还包括:
样本构建模块,用于获取正三元组样本,对正三元组样本进行实体替换,生成负三元组样本;
准确检测模块,用于将正三元组样本及负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到正三元组样本的正样本准确度,以及负三元组样本的负样本准确度;
损失构建模块,用于获取正三元组样本的正三元组标签以及负三元组样本的负三元组标签,根据正样本准确度、正三元组标签、负样本准确度及负三元组标签,构建第一损失;
第一调整模块,用于采用第一损失对初始三元组检测网络进行参数调整,得到三元组检测网络。
其中,该掩码添加单元,包括:
替换添加子单元,用于若目标掩码添加方式为替换添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据替换为掩码数据,得到掩码序列;
增加添加子单元,用于若目标掩码添加方式为增加添加方式,则基于待更新数据在三元组序列中的位置,在三元组序列中插入掩码数据,得到掩码序列;掩码数据与待更新数据在三元组序列中相邻;
删除添加子单元,用于若目标掩码添加方式为删除添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据及待更新数据的邻接数据替换为掩码数据,得到掩码序列。
其中,该装置还包括:
第二样本获取模块,用于获取第二样本序列,为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取第二样本掩码数据在第二样本序列中所对应的第二样本数据;
第二样本预测模块,用于将第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据;
第二调整模块,用于根据第二样本数据及第二样本预测数据构建第二损失,采用第二损失对初始掩码语言模型进行参数调整,得到掩码语言模型。
其中,该掩码处理模块,包括:
长度获取单元,用于获取三元组序列的第一序列长度,获取掩码语言模型的模型输入长度;
序列分段单元,用于若第一序列长度大于模型输入长度,则对三元组序列进行分段处理,得到至少两个子段序列,将至少两个子段序列中包括待更新数据的子段序列,确定为目标子段序列;
向量获取单元,用于获取组成目标子段序列的序列词组,获取序列词组的词组语义向量及序列词组在三元组序列中的词组位置向量;
向量确定单元,用于基于词组语义向量及词组位置向量,组成序列词组的词组向量;
该掩码添加单元,还用于为词组向量添加掩码数据,生成掩码序列。
其中,该向量确定单元,包括:
嵌入确定子单元,用于获取序列词组在知识三元组中的参数类型,基于序列词组的参数类型确定序列词组的嵌入向量;
向量组合子单元,用于将序列词组的词组语义向量、词组位置向量及嵌入向量,组成序列词组的初始词组向量;
向量编码子单元,用于对初始词组向量进行编码处理,生成序列词组的词组向量。
其中,该替换确定模块,包括:
参数检测单元,用于获取候选预测数据的预测概率,获取候选预测数据与待更新数据之间的数据相似度;
候选检测单元,用于将三元组序列中的待更新数据替换为候选预测数据,得到候选序列,将候选序列输入三元组检测网络中进行三元组检测,得到候选序列的候选准确度;
实体确定单元,用于将候选预测数据中的目标候选预测数据,确定为针对待更新数据的替换实体;目标候选预测数据为预测概率大于替换概率阈值,且候选准确度大于或等于替换准确度阈值的候选预测数据,目标候选预测数据与待更新数据之间的数据相似度大于替换相似阈值。
其中,知识三元组的数量为N,N为正整数;
该替换确定模块,包括:
对抗处理单元,用于将候选预测数据迭代地与N个知识三元组中分别包括的待更新数据进行对抗处理,得到候选预测数据的对抗成功率;
该实体确定单元,还用于基于知识三元组的数量确定对抗成功阈值,将对抗成功率大于或等于对抗成功阈值的候选预测数据,确定为针对待更新数据的替换实体。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本申请实施例一方面中的数据处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例一方面中的数据处理方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
在本申请实施例中,获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。通过以上过程,使得在进行实体替换时,不仅依赖于需要被替换的实体(即待更新数据),还会考虑到该实体的其他信息,如与其他实体之间的关系(即知识三元组)等,使得该实体替换可以更为充分全面地采用被替换的实体的相关信息,可以使得实体替换可以更为适配被替换的实体所处的场景,从而可以提高实体替换的适配性及准确性。而且通过以上过程,无需去构建并维护替换规则及可供选择的实体集群等,可以节省资源,而且可以节省替换规则及实体集群匹配所耗费的时间,提高实体替换的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理的网络交互架构图;
图2是本申请实施例提供的一种数据处理场景示意图;
图3是本申请实施例提供的一种数据处理的方法流程图;
图4是本申请实施例提供的一种三元组序列生成场景示意图;
图5是本申请实施例提供的一种三元组检测网络的训练流程示意图;
图6是本申请实施例提供的一种掩码语言模型的训练流程示意图;
图7是本申请实施例提供的一种对抗训练流程示意图;
图8是本申请实施例提供的一种数据处理装置示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集某些数据,如待更新数据及知识三元组等,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。其中,对于用户数据的使用符合法律法规的相关规定,也就是本申请会合理合法地使用获取到的用户数据。
其中,对本申请中所涉及的部分名词进行如下解释:
1、知识图谱嵌入:是一种将实体和关系映射为向量并保留它们的语义的技术。它通常采用线性/双线性模型、分解模型和神经网络等方法,也采用了基于编解码器(如Transformer)的模型来更好地表达上下文信息。知识图谱嵌入在一般知识图谱中应用广泛,但在特定领域中的应用相对较少。此外知识图谱嵌入还可以通过攻击来创建对抗样本,以帮助缓解知识图谱中的稀疏问题并充实其表示。
2、领域知识图谱:指的是针对某个特定领域的知识图谱,如食物知识图谱(针对食物领域的知识图谱)、医学知识图谱(针对医学领域的知识图谱)、金融知识图谱(针对金融领域的知识图谱)、法律知识图谱(针对法律领域的知识图谱)、地理知识图谱(针对地理领域的知识图谱)、工程知识图谱(针对工程领域的知识图谱)及教育知识图谱(针对教育领域的知识图谱)等。知识图谱是一种结构化的数据表示方式,将实体、关系和属性等语义信息以图的形式进行展示,并在其基础上进行推理、问答、推荐等任务。对于不同的领域,知识图谱的实体、关系和属性等元素也会有所不同。领域知识图谱可以帮助我们更好地理解和利用某个领域的知识,进而促进该领域的发展。例如,食物知识图谱可以包括食物原材料、食物成分及食物原材料与食物成分之间的关系等;医学知识图谱可以包括疾病、药物、治疗方法及病理症状等;金融知识图谱可以包括金融机构、产品及市场等;法律知识图谱可以包括法律条文、案件及法律人员等;地理知识图谱可以包括地理位置、地理属性及地理关系等;工程知识图谱可以包括设备、工程项目及工程实体等;教育知识图谱可以包括教育机构、课程及教育资源等。
3、实体:是指知识图谱中的概念、对象、事件或人物等具体存在的事物。在知识图谱中,每个实体都具有唯一的标识符,可以被描述和链接到其他实体或关系上,形成丰富的知识关联网络。对于知识图谱的应用来说,实体是知识表示和知识推理的核心,因此实体的准确识别和表示非常重要。
4、实体嵌入:是将知识图谱中的实体和关系映射为向量,同时保留它们的语义含义的方法。通过将实体和关系表示为向量,实体嵌入可以帮助机器学习算法更好地理解知识图谱中的实体和关系之间的关系,从而实现更准确的推理和预测。在深度学习技术的帮助下,实体嵌入已经得到广泛的应用,例如自然语言处理、推荐系统和搜索引擎优化等领域。
5、嵌入:是将实体和关系映射到向量空间中的一种技术,同时保留它们的语义信息。这种技术可以用于表示知识图谱中的节点和边,以帮助计算机更好地理解和分析结构化知识。在文本分析中,嵌入也可以用于表示单词或文档,并用于训练机器学习模型。
6、成分:是指在相关领域中,某一物质组成部分及其与其他实体之间的关联。例如,在化学领域的知识图谱中,成分可以指化学元素或化合物的组成部分。
7、实体替换:是本申请中所提出的一种基于知识图谱的领域研究方法,可以通过上下文信息和语义相似性生成替换实体,以应对某些特定领域的需求。
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种数据处理的网络交互架构图,计算机设备101可以针对获取到的待更新数据,进行实体替换,其中,计算机设备101可以从本地存储空间中获取待更新数据,对该待更新数据进行实体替换,或者,可以从任意一个业务设备(如业务设备102a、业务设备102b或业务设备102c等)中获取待更新数据,对该待更新数据进行实体替换等。例如,计算机设备101可以响应针对待更新数据的实体替换请求,获取实体替换请求所携带的待更新数据,对待更新数据进行实体替换,该实体替换请求可以是由任意一个业务设备发送至计算机设备101的,也可以是在计算机设备101中触发的。
举例来说,业务设备102b向计算机设备101发送针对待更新数据的实体替换请求,获取用于对待更新数据进行实体替换的相关信息,如待更新数据所在的知识三元组等,基于该相关信息对待更新数据进行实体替换,得到替换实体,将替换实体发送至业务设备102b等。
具体的,请参见图2,图2是本申请实施例提供的一种数据处理场景示意图。如图2所示,计算机设备可以获取待更新数据所在的知识三元组201,其中,该待更新数据可以是知识三元组201中的一个实体,也可以是该知识三元组201中的实体的一个词组等。计算机设备可以获取知识三元组201的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列202。通过掩码语言模型203对掩码序列202中的掩码数据进行预测,得到针对待更新数据的候选预测数据204。进一步,对候选预测数据204与待更新数据进行对抗处理,从候选预测数据204中,确定待更新数据的替换实体。以上过程,使得实体替换可以充分全面地考虑到待更新数据的相关信息,也就是基于知识三元组,利用了待更新数据的上下文信息,从而使得对待更新数据的实体替换可以更为适配待更新数据所处的场景,提高实体替换的场景适配性、准确性及效率。
可以理解的是,本申请实施例中所提及的业务设备也可以认为是一种计算机设备,本申请实施例中的计算机设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅列举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备,业务设备102a可以用于管理领域知识图谱1021。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络对该数据进行存储,在此不做限制。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理的方法流程图。如图3所示,该数据处理过程包括如下步骤:
步骤S301,获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列。
在本申请实施例中,计算机设备可以获取待更新数据所在的知识三元组的三元组序列。具体的,计算机设备可以响应针对待更新数据的实体替换请求,获取该待更新数据所在的知识三元组,再获取知识三元组的三元组序列。其中,可以对知识三元组进行分词处理,得到三元组序列,例如,将该知识三元组记作<h,r,t>,其中,h用于表示知识三元组的头实体,t用于表示知识三元组的尾实体,r用于表示头实体h与尾实体t之间的关系,将知识三元组进行分词处理,得到三元组序列,其中,该头实体可以记作h={},尾实体可以记作t={/>},关系记作r={/>},也就是说将该三元组序列记作X,该三元组序列为X={/>},其中,a可以用于表示对头实体进行分词处理得到的词组(可以记作头实体词组)的数量,b用于表示对关系进行分词处理得到的词组(可以记作关系词组)的数量,c用于表示对尾实体进行分词处理得到的词组(可以记作尾实体词组)的数量,a、b及c均可以是正整数。举例来说,该知识三元组为<香蕉面包,成分,普通面粉>,则可以得到三元组序列为{香蕉,面包,成分,普通,面粉}等,当然,可选的,也可以直接对知识三元组进行逐字分词处理,得到三元组序列,如上述例子中的三元组序列可以为{香,蕉,面,包,成,分,普,通,面,粉}等,在此不做限制。也就是说,可以将待更新数据的实体替换问题,扩散到在待更新数据所在的知识三元组下的实体替换问题,也就是转换成了路径h—>r—>t,使得可以考虑到该待更新数据的上下文信息,从而可以在对待更新数据的实体替换中,可以获取到更为充分全面的相关信息,可以提高实体替换的场景适配性及准确性。其中,可以记作/>,/>,其中,/>用于表示管理实体的集合,/>用于表示管理关系的集合,也就是说,领域知识图谱中包括实体和关系,以实体构建图谱节点,以不同实体之间的关系构建图谱边,可以得到领域知识图谱。
当然可选的,可以获取知识三元组的初始三元组序列(具体实现过程可以参见上述三元组序列的生成过程),为初始三元组序列的起始位置添加起始标识,如[CLS]等,得到三元组序列,该起始标识用于知识三元组的起始位置,此时,该三元组序列可以认为是X={}。或者可选的,可以获取知识三元组的初始三元组序列,为初始三元组序列的起始位置添加起始标识,为初始三元组序列中的实体与关系之间(如头实体与关系之间,或关系与尾实体之间等)添加参数分词符,如[SEP]等,生成三元组序列,此时,该三元组序列可以认为是X={/>}。也就是说,可以直接将知识三元组的初始三元组序列,确定为该知识三元组的三元组序列,也可以在初始三元组序列中添加起始标识或参数分词符,或同时添加起始标识与参数分词符,得到三元组序列等,在此不做限制。通过标识符(如起始标识或参数分词符等)在三元组序列中的应用,可以使得后续对三元组序列进行处理时,能够准确地识别到三元组序列中每一个词组的语义及位置等各方面的信息,更能准确方便地获取到各个词组与待更新数据之间的关联,从而可以在一定程度上提高数据处理的准确性。
其中,该实体替换请求可以是由计算机设备中所触发的,也可以是由任意一个业务设备所发送的。具体的,计算机设备可以获取领域知识图谱,在领域知识图谱中获取待更新数据所在的知识三元组,对知识三元组进行分词处理,得到知识三元组的三元组序列,其中,该知识三元组的数量为N,N为正整数,也就是说,该待更新数据所在的知识三元组的数量可以为一个或多个。也就是说,可以基于实体替换请求在领域知识图谱中查找待更新数据,从该领域知识图谱中,获取待更新数据所在的知识三元组。举例来说,参见图4,图4是本申请实施例提供的一种三元组序列生成场景示意图,如图4所示,假定计算机设备获取到待更新数据401为“感冒”,在领域知识图谱402中查找该待更新数据401,获取包括待更新数据401的知识三元组,如得到知识三元组<感冒,药物,感冒冲剂>、<感冒,药物,消炎药>及<感冒,建议行为,多喝水>等,可以获取待更新数据所在的知识三元组的三元组序列。或者,计算机设备可以获取待处理信息,对待处理信息进行解析,确定待处理信息中的待更新数据,基于待更新数据对待处理信息进行三元组解析,得到包括待更新数据的知识三元组,获取知识三元组的三元组序列。可选的,该待处理信息可以携带于实体替换请求中。例如,假定该待处理信息为“做红糖肉糕时没有红糖怎么办”,对该待处理信息进行解析,可以确定该待处理信息中的待更新数据为“红糖”,基于该待更新数据对待处理信息进行三元组解析,可以得到包括待更新数据的知识三元组“<红糖肉糕,成分,红糖>;例如,假定该待处理信息为“想做拿铁要准备些什么东西”,对待处理信息进行解析,可以确定该待处理信息中的待更新数据为“空”(也就是没有内容),基于该待更新数据对待处理信息进行三元组解析,可以得到包括待更新数据的知识三元组“<拿铁,成分,空>”,也就是说,该待更新数据可以为空等。进一步,计算机设备可以获取知识三元组的三元组序列,具体可以参见上一分段中的三元组序列的生成过程。
进一步,可以基于待更新数据为三元组序列添加掩码数据,生成掩码序列。可选的,可以获取掩码语言模型的目标掩码添加方式,基于目标掩码添加方式及待更新数据在三元组序列中的位置,为三元组序列添加掩码数据,生成掩码序列。其中,目标掩码添加方式,用于表示在三元组序列中添加掩码数据的方式,可以是替换添加方式、增加添加方式或删除添加方式等。具体的,在基于目标掩码添加方式及待更新数据在三元组序列中的位置,为三元组序列添加掩码数据,生成掩码序列时,若目标掩码添加方式为替换添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据替换为掩码数据,得到掩码序列,假定该待更新数据为在三元组序列中尾实体的第i个尾实体词组,即,则可以通过替换添加方式,将三元组序列中的待更新数据替换为掩码数据,得到掩码序列,该掩码序列中的尾实体掩码子序列可以记作/> MASK/>,也就是说,替换添加方式是指将待更新数据替换为掩码数据的方式,[MASK]用于表示掩码数据。若目标掩码添加方式为增加添加方式,则基于待更新数据在三元组序列中的位置,在三元组序列中插入掩码数据,得到掩码序列,此时,掩码数据与待更新数据在三元组序列中相邻,也就是说,增加添加方式是指在三元组序列的待更新数据之前或之后添加掩码数据的方式,如,在上述例子中,该方式下可能得到的掩码序列中的尾实体掩码子序列可以记作/> 或/> 。若目标掩码添加方式为删除添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据及待更新数据的邻接数据替换为掩码数据,得到掩码序列,此时,上述例子中,一种可能得到的掩码序列中的尾实体掩码子序列可以记作/> ,也就是说,删除添加方式是指将三元组序列中的待更新数据/>及其邻接数据(如/>),替换为掩码数据的方式。
例如,假定尾实体为“鸡嫩肉和蓝纹奶酪芝士填充到马铃薯中”,待更新数据为“鸡嫩肉”,则在替换添加方式下,一种可能的掩码序列中的尾实体掩码子序列可以认为是“[MASK] 和蓝纹奶酪芝士填充到马铃薯中”;在增加添加方式下,一种可能的掩码序列中的尾实体掩码子序列可以认为是“[MASK]鸡嫩肉和蓝纹奶酪芝士填充到马铃薯中”;在删除添加方式下,一种可能的掩码序列中的尾实体掩码子序列可以认为是“[MASK]填充到马铃薯中”等。
可选的,可以获取三元组序列的第一序列长度,获取掩码语言模型的模型输入长度,该模型输入长度是指掩码语言模型所能处理的数据的最大长度,或者最佳长度(也就是掩码语言模型在该最佳长度下的处理效率及处理效果等,相对于其他长度更好)等。若第一序列长度小于或等于模型输入长度,则可以直接对三元组序列添加掩码数据,生成掩码序列,该过程可以参见上述掩码序列的生成过程。若第一序列长度大于模型输入长度,则对三元组序列进行分段处理,得到至少两个子段序列,将至少两个子段序列中包括待更新数据的子段序列,确定为目标子段序列,为目标子段序列添加掩码数据,生成掩码序列。这一方式一般u处理较长的输入序列,可以基于第一序列长度将三元组序列划分为不同的片段,使得三元组序列在后续进行处理时,可以更为适配掩码语言模型,也可以在一定程度上提高数据处理的准确性。
可选的,在上述三元组序列或目标子段序列中添加掩码数据时,可以将三元组序列或目标子段序列转换为输入向量,基于待更新数据为输入向量添加掩码数据,生成掩码序列,当然,该掩码数据的添加过程可以参见上述目标掩码方式下的掩码数据的添加过程,也就是,可以基于目标掩码方式在输入向量中的待更新数据所对应的向量处,添加掩码数据。或者,可以在三元组序列或目标子段序列中添加掩码数据,生成初始掩码序列(生成过程可以参见上述描述的掩码序列的生成过程),对初始掩码序列进行向量化转换,生成掩码序列。
具体的,以目标子段序列,先进行向量转换为例,可以获取组成目标子段序列的序列词组,获取序列词组的词组语义向量及序列词组在三元组序列中的词组位置向量,基于词组语义向量及词组位置向量,组成序列词组的词组向量,为词组向量添加掩码数据,生成掩码序列。其中,该序列词组的数量为d,d为正整数,d个序列词组分别对应的词组向量组成输入向量,一个序列词组可以记作一个token。其中,在基于词组语义向量及词组位置向量,组成序列词组的词组向量时,可以获取序列词组在知识三元组中的参数类型,基于序列词组的参数类型确定序列词组的嵌入向量;将序列词组的词组语义向量、词组位置向量及嵌入向量,组成序列词组的初始词组向量。将初始词组向量确定为序列词组的词组向量;或者,对初始词组向量进行编码处理,生成序列词组的词组向量。
以第j个序列词组为例,可以获取第j个序列词组的词组语义向量xj,具体的,可以是对第j个序列词组进行嵌入处理,得到第j个序列词组的词组语义向量,或者,可以获取实体词汇表V,从实体词汇表V中获取第j个序列词组的词组语义向量,其中,实体词汇表V是指用于管理单词所对应的向量的表,也可以认为是一个数据库等,在此不做限制。进一步,可以获取第j个序列词组在三元组序列中的词组位置向量Pj;获取第j个序列词组在知识三元组中的参数类型, 该参数类型可以是头参数类型(head)、关系参数类型或尾参数类型(tail)等,可以基于第j个序列词组的参数类型确定第j个序列词组的嵌入向量,如假定该第j个序列词组的参数类型为头参数类型,假定该头参数类型所对应的嵌入向量为eA,则该第j个序列词组的词组向量可以记作Ej=xj+Pj+eA。可选的,该头参数类型所对应的嵌入向量与尾参数类型所对应的嵌入向量可以相同,也可以不同。可选的,可以将Ej记作第j个序列词组的初始词组向量,可以对初始词组向量进行编码处理,生成第j个序列词组的词组向量,该过程可以参见公式①所示:
如公式①所示,w是指编码器中的参数,Transformer用于表示编码器,Tj用于表示第j个序列词组的词组向量,可以认为是知识三元组的嵌入表示,也就是知识三元组的隐藏状态,其中,Tj∈RH,H用于表示词组向量的大小。通过以上过程,使得词组向量的表示具有自适应能力,可以结合上下文信息对待更新数据进行处理,提高实体替换的准确性。其中,该编码器可以是一种基于深度学习的方法,如卷积神经网络(CNN)、循环神经网络(RNN)和图神经网络(GNN)等,进一步,可以基于后续的掩码语言模型,引入待更新数据的上下文信息,提高实体替换的准确性。
步骤S302,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据。
在本申请实施例中,计算机设备可以将掩码序列输入掩码语言模型,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据。该掩码语言模型是预训练的模型,用于对掩码数据进行预测。可选的,可以将掩码序列输入掩码语言模型,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据及候选预测数据的预测概率。该掩码语言模型的输出(即候选预测数据)可以是对掩码序列中的掩码数据进行预测替换后得到的序列,可以对应于三元组;也可以是对掩码数据进行预测得到的数据,用于替换待更新数据;或者,可以得到多个候选预测数据及每个候选预测数据的预测概率等,具体是基于掩码语言模型的训练所确定的。其中,通过该掩码语言模型可以得到多个候选预测数据。
步骤S303,对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定待更新数据的替换实体。
在本申请实施例中,计算机设备可以获取候选预测数据的预测概率,该预测概率是指在掩码序列基础上得到候选预测数据的概率,可以记作PMLM(z|(h,r,)),其中,用于表示候选预测数据的预测概率,z用于表示候选预测数据,(h,r,/>)用于表示掩码序列。获取候选预测数据与待更新数据之间的数据相似度,例如,该数据相似度可以是候选预测数据与待更新数据之间的余弦相似度等,例如,假定该待更新数据为知识三元组中的尾实体或尾实体中的一个词组,则该数据相似度可以是sim(t',t),t'是指将尾实体中的待更新数据替换为候选预测数据后的数据,当然,可以是获取候选预测数据与待更新数据之间的数据相似度,也可以是获取待更新数据所在的实体,以及将待更新数据所在的实体中的待更新数据替换为候选预测数据所得到的数据之间的数据相似度。进一步,可以将三元组序列中的待更新数据替换为候选预测数据,得到候选序列,将候选序列输入三元组检测网络中进行三元组检测,得到候选序列的候选准确度,其中,该候选准确度可以记作fr(h,t'),fr用于表示三元组检测网络,用于在知道三元组的情况下,输出一个介于0~1之间的概率,用于表示三元组的真实性得分。将满足数据替换条件的候选预测数据,确定为针对待更新数据的替换实体。其中,该数据替换条件可以包括如下条件中的任意一个或多个:
1)预测概率大于替换概率阈值,即PMLM(z|(h,r,))>替换概率阈值,可以使得得到的替换实体更为适配待更新数据所在的知识三元组的场景。
2)与待更新数据之间的数据相似度大于替换相似阈值,即sim(t',t)>替换相似阈值,用于保障待更新数据与用于替换待更新数据的数据之间,在语义上相似。
3)候选准确度大于或等于替换准确度阈值,即fr(h,t')≥替换准确度阈值,该三元组检测网络用于尽可能地识别出更为真实的数据,因此,需要使得三元组检测网络可以尽可能地针对错误的三元组产生较低的真实标签概率,也就是该三元组检测网络可以用于检测三元组的准确度,也就是合理性,使得最终确定的替换实体更为真实准确。或者,该条件也可以是候选准确度小于替换准确度阈值,即fr(h,t')≥替换准确度阈值,此时,该三元组检测网络用于尽可能地识别出与原始数据对抗的数据,也就是说,尽可能地识别出原始数据中的变化,使得可以更能识别出是生成数据的替换实体,使得最终确定的替换实体可以更为明确是生成数据,在这一条件下,可以结合其他的条件,以保障替换实体的准确性。
其中,数据替换条件还可以基于需要进行补充、修改或删除。例如,采用以上例举的三种数据替换条件确定针对待更新数据的替换实体,具体的,可以将预测概率大于替换概率阈值,与待更新数据之间的数据相似度大于替换相似阈值,且候选准确度大于或等于替换准确度阈值的候选预测数据,确定为针对待更新数据的替换实体。也就是说,将候选预测数据中的目标候选预测数据,确定为针对待更新数据的替换实体,目标候选预测数据为预测概率大于替换概率阈值,且候选准确度大于或等于替换准确度阈值的候选预测数据,而且该目标候选预测数据与待更新数据之间的数据相似度大于替换相似阈值。可选的,若候选预测数据中满足数据替换条件的候选预测数据的数量大于一,则计算机设备可以将满足数据替换条件的多个候选预测数据,确定为针对待更新数据的替换实体,或者,可以将满足数据替换条件的多个候选预测数据,确定为针对待更新数据的初步候选数据,将预测概率最大的初步候选数据,确定为针对待更新数据的替换实体。具体的,该替换实体的数量是基于实体替换请求的场景所确定的。
例如,该实体替换请求携带待处理信息,假定在搜索平台中,该待处理信息为“做红糖肉糕时没有红糖怎么办”,得到针对待更新数据“红糖”的替换实体“红糖做法”、“白糖”及“蔗糖”等,可以基于替换实体生成针对待处理信息的回复信息,如“可以通过‘红糖做法’自己做些红糖”、“可以用白糖替代”及“可以用蔗糖替代”等,在搜索平台显示替换实体。可选的,可以基于替换实体所对应的预测概率,对替换实体进行排序,显示排序后的替换实体。
可选的,知识三元组的数量为N,N为正整数。在对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体时,计算机设备可以将候选预测数据,迭代地与N个知识三元组中分别包括的待更新数据进行对抗处理,得到候选预测数据的对抗成功率α。具体的,将候选预测数据替换N个知识三元组中的待更新数据,得到N个知识三元组分别对应的替换三元组,采用三元组检测网络,对N个知识三元组分别对应的替换三元组进行对抗处理,得到候选预测数据的对抗成功率。进一步,可以基于知识三元组的数量(也就是N)确定对抗成功阈值,具体的,可以获取对抗参数β,将N与对抗参数组成对抗成功阈值,如βN,将对抗成功率大于或等于对抗成功阈值的候选预测数据,确定为针对待更新数据的替换实体。
举例来说,本申请可以用于进行广义实体替换场景,具体的,可以获取待更新数据所在的知识三元组,具体的,以待更新数据为实体为例,在领域知识图谱中,获取与待更新数据的邻居节点Nt,将待更新数据与待更新数据的邻居节点组成N个知识三元组,{(h,r,t)|h∈Nt},此时,以t表示待更新数据,h用于表示待更新数据的邻居节点所对应的邻居实体,当然,该N个知识三元组中,待更新数据可以同时属于某些知识三元组的头实体,以及其他知识三元组的尾实体,此处,为后续方便表示,暂以待更新数据为N个知识三元组的尾实体进行表示。可以通过掩码语言图谱,预测N个知识三元组分别对应的候选预测数据,基于N个知识三元组对候选预测数据进行迭代对抗处理,得到候选预测数据的对抗成功率,将对抗成功率大于或等于对抗成功阈值的候选预测数据,确定为针对待更新数据的替换实体。可选的,可以将满足数据替换条件的候选预测数据,确定为针对待更新数据的初步候选数据;基于N个知识三元组对初步候选数据进行迭代对抗处理,得到初步候选数据的对抗成功率,将对抗成功率大于或等于对抗成功阈值的初步候选数据,确定为针对待更新数据的替换实体。使得该对抗处理在待更新数据的所有邻居节点之间进行,得到的替换实体可以欺骗待更新数据的大部分邻居节点,此时才能获得成功对抗,从而可以使得替换实体能够更好地适配领域知识图谱,提高数据处理的准确性。可选的,可以将N个知识三元组中的待更新数据替换为替换实体,得到N个替换三元组,将N个替换三元组添加至领域知识图谱,从而丰富知识图谱,降低知识图谱的稀疏性。
例如,待更新数据为“苹果”,从领域知识图谱中获取到该待更新数据所在的知识三元组,假定得到候选预测数据包括{ “梨”、“桃子”、“西瓜”、…},在对抗处理时,候选预测数据“梨”在对抗中成功达到了对抗成功阈值,则可以将“梨”作为“苹果”的广义替代品。例如,待更新数据“莫扎里拉芝士”可以在知识三元组(费力牛排芝士披萨,成分,莫扎里拉芝士)中用“奶油芝士”替换,“奶油芝士”为“莫扎里拉芝士”的替换实体等。
其中,本申请可以应用于不同领域中,以领域知识图谱为例,实体替换可以帮助用户选择更为合适的实体组合。例如,待更新数据为药物,可以在医疗领域的知识图谱中,辅助医生和患者获取到更合适的药物;如待更新数据为知识点,可以通过本申请在教育领域的知识图谱中,将相关的知识点进行关联,可以构建知识点与知识点之间的知识图谱,使得知识点之间更为条理,更为结构化,可以帮助学生理解和记忆知识点。可选的,本申请还可以在金融领域的知识图谱中提供更好的资产管理方式;在农业领域的知识图谱中,帮助用户选择更合适的农作物(如待更新数据可以为一种农作物)和农药(如待更新数据为一种农药,可以与农作物等之间构建知识三元组,进行替换实体的确定)等。通过本申请,可以通过领域知识图谱等实现实体的表示学习,并可以利用掩码语言模型生成高质量的对抗样本,进而可以实现对三元组检测网络的训练,可以实现三元组的自动化检测,提高实体替换时所产生的三元组的准确性。
具体的,上述目标掩码添加方式的确定过程可以参见如下过程:
计算机设备可以获取第一样本序列,在第一样本序列中确定第一样本数据,获取第一样本数据在第一样本序列中的第一样本位置。基于第一样本位置及第一样本数据,采用M个掩码添加方式分别为第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数,具体可以参见上述掩码序列的生成过程,在此不再进行赘述。其中,该第一样本掩码数据可以与掩码数据相同,也可以与掩码数据不同。进一步,可以基于M个第一样本掩码序列,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式。或者,可以采用掩码语言模型分别对M个第一样本掩码序列进行预测,得到M个第一样本掩码序列分别对应的第一样本预测数据,任意一个第一样本预测数据的生成过程,可以参见上述候选预测数据的生成过程,在此不再进行赘述;基于M个第一样本掩码序列分别对应的第一样本预测数据,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式。
其中,在基于M个第一样本掩码序列分别对应的第一样本预测数据,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式时,可以将M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到M个第一样本掩码序列分别对应的样本预测准确度;将第一样本序列输入三元组检测网络中进行三元组检测,得到第一样本序列所对应的第一样本准确度。将M个样本预测准确度分别与第一样本准确度进行准确度对比,得到M个掩码添加方式分别对应的添加质量指标。
其中,在基于M个第一样本掩码序列,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式时,该添加质量指标的确定过程可以参见公式②所示:
如公式②所示,Ik用于表示第k个掩码添加方式所对应的添加质量指标,此处的(h,r,t)用于表示第一样本序列,此处的(h,r,)用于表示第k个第一样本掩码序列。其中,用于表示准确度,也就是将第一样本掩码序列输入三元组检测网络中进行三元组检测,得到第一样本序列所对应的第一样本准确度/>;将第k个第一样本掩码序列输入三元组检测网络中进行三元组检测,得到第k个第一样本掩码序列对应的样本掩码准确度。将第一样本准确度与第k个第一样本掩码序列对应的样本掩码准确度的差异数据,确定为第k个掩码添加方式所对应的添加质量指标。
进一步,可以将添加质量指标最大的掩码添加方式,确定为掩码语言模型的目标掩码添加方式。相当于是对k个掩码添加方式分别与原始样本(即第一样本序列)进行对抗检测,使得通过最终确定的目标掩码添加方式,可以尽可能地得到能识别出是生成数据的结果,也就是说,可以将真实数据与生成数据进行区分开,从而可以方便后续对掩码语言模型的结果进行检测,提高数据处理的准确性。其中,真实数据是指开始时需要处理的数据,如进行模型训练时所用的第一样本序列、三元组序列及正三元组样本等,生成数据是指对真实数据进行修改后得到的数据,如掩码语言模型所输出的结果等。
可选的,可以对三元组检测网络及掩码语言模型分别进行训练。具体的,可以参见图5,图5是本申请实施例提供的一种三元组检测网络的训练流程示意图。如图5所示,该过程可以包括如下步骤:
步骤S501,获取正三元组样本及负三元组样本。
在本申请实施例中,可以获取正三元组样本D+。对正三元组样本进行实体替换,生成负三元组样本,具体的,可以替换正三元组样本中的头实体或尾实体,得到负三元组样本D-。或者,可以直接获取正三元组样本及负三元组样本。其中,正三元组样本与负三元组样本的数量均可以为多个,为方便表述,后续不对正三元组样本及负三元组样本的数量进行描述。其中,正三元组样本是指正确的三元组,负三元组样本是指错误的三元组。
步骤S502,将正三元组样本及负三元组样本分别输入初始三元组检测网络进行三元组检测,得到正三元组样本的正样本准确度,及负三元组样本的负样本准确度。
在本申请实施例中,可以将正三元组样本及负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到正三元组样本的正样本准确度,以及负三元组样本的负样本准确度。具体的,可以认为是将三元组样本输入初始三元组检测网络中进行三元组检测,得到三元组样本的样本准确度,其中,该三元组样本包括正三元组样本及负三元组样本,三元组样本的样本准确度包括正三元组样本的正样本准确度,以及负三元组样本的负样本准确度。其中,该样本准确度的可选的获取过程可以参见公式③所示:
如公式③所示,此时的fr用于表示初始三元组检测网络,可以对三元组样本进行向量转换,得到三元组样本向量,T[CLS]用于表示三元组样本向量。将三元组样本向量输入初始三元组检测网络中进行三元组检测,得到三元组样本的样本准确度,其中,W用于表示初始三元组检测网络中可以进行调整的参数。用于表示三元组样本的样本准确度,。其中,该过程可以应用于任意一个正三元组样本及任意一个负三元组样本的样本准确度的获取过程。
步骤S503,基于正三元组样本的正样本准确度,及负三元组样本的负样本准确度,对初始三元组检测网络进行参数调整,得到三元组检测网络。
在本申请实施例中,获取正三元组样本的正三元组标签以及负三元组样本的负三元组标签,根据正样本准确度、正三元组标签、负样本准确度及负三元组标签,构建第一损失。可选的,该第一损失可以参见公式④所示:
如公式④所示,L1用于表示第一损失,用于表示三元组样本,/>用于表示三元组样本的三元组标签,如正三元组样本的正三元组标签以及负三元组样本的负三元组标签等。进一步,可以采用第一损失对初始三元组检测网络进行参数调整,得到三元组检测网络,使得三元组检测网络可以尽可能地检测三元组的准确度,也就是合理性,三元组的准确度越高,表示该三元组在知识图谱上越为可信。
其中,可以参见图6,图6是本申请实施例提供的一种掩码语言模型的训练流程示意图。如图6所示,该过程可以包括如下步骤:
步骤S601,获取第二样本序列,为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取第二样本掩码数据在第二样本序列中所对应的第二样本数据。
在本申请实施例中,该第二样本掩码序列的生成过程,可以参见图3的步骤S301中掩码序列的生成过程,在此不再进行赘述。其中,可以在第二样本序列中随机确定第二样本数据,基于第二样本数据为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,该第二样本掩码数据可以与掩码数据相同,也可以与掩码数据不同,可以认为是一个用于表示掩码的标识符。其中,该第二样本数据可以认为是第二样本序列中需要被替换的待更新数据。该第二样本数据可以认为是第二样本序列的标签。
步骤S602,将第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据。
在本申请实施例中,可以参见图3的步骤S302中候选预测数据的获取过程,在此不再进行赘述。其中,该第二样本预测数据的一种可选的获取过程可以参见公式⑤所示:
如公式5所示,ut用于表示第二样本预测数据,f()用于表示初始掩码语言模型,Tt用于表示第二样本掩码序列,W2用于表示初始掩码语言模型中的可训练参数。
步骤S603,基于第二样本数据及第二样本预测数据,对初始掩码语言模型进行参数调整,得到初始掩码语言模型所对应的掩码语言模型。
在本申请实施例中,根据第二样本数据及第二样本预测数据构建第二损失,采用第二损失对初始掩码语言模型进行参数调整,得到掩码语言模型。可选的,该第二损失可以参见公式⑥所示:
如公式⑥所示,该L2用于表示第二损失,D0用于表示第二样本序列的数量,yt用于表示第二样本序列的标签,即第二样本数据。也就是,用于表示第s个第二样本序列的标签,即第s个第二样本序列中的第二样本数据;/>用于表示第s个第二样本序列的第二样本预测数据。
可选的,可以对三元组检测网络及掩码语言模型进行共同训练。参见图7,图7是本申请实施例提供的一种对抗训练流程示意图,如图7所示,该过程可以包括如下步骤:
步骤S701,获取第二样本序列,为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取第二样本掩码数据在第二样本序列中所对应的第二样本数据。
在本申请实施例中,可以参见图6的步骤S601中的相关描述。
步骤S702,将第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据。
在本申请实施例中,可以参见图6的步骤S602中的相关描述。
步骤S703,基于第二样本预测数据确定负三元组样本,将第二样本序列所对应的三元组确定为正三元组样本。
在本申请实施例中,具体的,可以将第二样本预测数据替换第二样本序列中的第二样本数据,得到负三元组样本。
步骤S704,将正三元组样本及负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到正三元组样本的正样本准确度,以及负三元组样本的负样本准确度。
在本申请实施例中,具体可以参见图5的步骤S502中的相关描述。
步骤S705,基于第二样本数据、第二样本预测数据、正样本准确度及负样本准确度,对初始掩码语言模型及初始三元组检测网络进行参数调整,得到初始掩码语言模型所对应的掩码语言模型,以及初始三元组检测网络所对应的三元组检测网络。
在本申请实施例中,一种可能的方式,可以根据正样本准确度、正三元组标签、负样本准确度及负三元组标签,构建第一损失;根据第二样本数据及第二样本预测数据构建第二损失。将第一损失与第二损失组成综合损失,采用综合损失对对初始掩码语言模型及初始三元组检测网络进行参数调整,得到初始掩码语言模型所对应的掩码语言模型,以及初始三元组检测网络所对应的三元组检测网络。可选的,可以基于第一损失确定初始三元组检测网络的第一参数调整方向;基于第二损失确定初始掩码语言模型的第二参数调整方向;采用综合损失,在第一参数调整方向下对初始三元组检测网络进行参数调整,在第二参数调整方向下,对初始掩码语言模型进行参数调整,得到初始掩码语言模型所对应的掩码语言模型,以及初始三元组检测网络所对应的三元组检测网络。
可选的,上述目标掩码添加方式的确定过程,可以提前进行训练,在训练得到三元组检测网络及掩码语言模型后,进一步对M个掩码添加方式进行检测,调整目标掩码添加方式。也可以在三元组检测网络及掩码语言模型的过程中进行同步确定。其中,上述各个模型的训练过程与使用过程可以在不同的设备中进行,也可以在同一个设备中进行;不同模型的训练过程可以在同一个设备中进行,也可以在不同的设备中进行。
在本申请实施例中,可以获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。通过以上过程,使得在进行实体替换时,不仅依赖于需要被替换的实体(即待更新数据),还会考虑到该实体的其他信息,如与其他实体之间的关系(即知识三元组)等,使得该实体替换可以更为充分全面地采用被替换的实体的相关信息,可以使得实体替换可以更为适配被替换的实体所处的场景,从而可以提高实体替换的适配性及准确性。而且通过以上过程,无需去构建并维护替换规则及可供选择的实体集群等,可以节省资源,而且可以节省替换规则及实体集群匹配所耗费的时间,提高实体替换的效率。
简单来说,本申请可以利用一个掩码语言模型,生成高质量的对抗样本,找到可以最大化使知识图谱三元组可信度预测出错风险的替代品,实现上下文感知的实体替代、上下文感知的成分替代和通用成分替代。其中,为了生成上下文感知的实体替代品,首先找出图谱中的易混淆的标记,这些标记会触发目标预测模型的错误。接下来以语义保持的方式使用掩码语言模型生成替代品,灵活地替换、添加或删除易混淆的标记。生成上下文感知的成分替代品与实体替代类似,但只选择有效的成分作为替代。这两种替代使用到了上下文,因为它们是由预训练的掩码语言模型生成的,并利用其在上下文化信息和丰富的语言知识方面的优越性。对于通用成分替代,对抗是在知识图谱中形成的所有成分邻居之间的三元组中进行的。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该数据处理装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置800可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:序列获取模块11、掩码处理模块12、掩码预测模块13及替换确定模块14。
序列获取模块11,用于获取待更新数据所在的知识三元组的三元组序列;
掩码处理模块12,用于基于待更新数据为三元组序列添加掩码数据,生成掩码序列;
掩码预测模块13,用于对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;
替换确定模块14,用于对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
其中,该序列获取模块11,包括:
图谱解析单元111,用于获取领域知识图谱,在领域知识图谱中获取待更新数据所在的知识三元组,对知识三元组进行分词处理,得到知识三元组的三元组序列;或者,
信息解析单元112,用于获取待处理信息,对待处理信息进行解析,确定待处理信息中的待更新数据,基于待更新数据对待处理信息进行三元组解析,得到包括待更新数据的知识三元组,获取知识三元组的三元组序列。
其中,该掩码处理模块12,包括:
方式获取单元121,用于获取掩码语言模型的目标掩码添加方式;
掩码添加单元122,用于基于目标掩码添加方式及待更新数据在三元组序列中的位置,为三元组序列添加掩码数据,生成掩码序列;
该掩码预测模块13,具体用于:
将掩码序列输入掩码语言模型,对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据。
其中,该装置800还包括:
第一样本获取模块15,用于获取第一样本序列,在第一样本序列中确定第一样本数据,获取第一样本数据在第一样本序列中的第一样本位置;
多方式掩码模块16,用于基于第一样本位置及第一样本数据,采用M个掩码添加方式分别为第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;
第一样本预测模块17,用于采用掩码语言模型分别对M个第一样本掩码序列进行预测,得到M个第一样本掩码序列分别对应的第一样本预测数据;
方式确定模块18,用于基于M个第一样本掩码序列分别对应的第一样本预测数据,及第一样本序列,从M个掩码添加方式中确定掩码语言模型的目标掩码添加方式。
其中,该方式确定模块18,包括:
第一检测单元181,用于将M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到M个第一样本掩码序列分别对应的样本预测准确度;
第二检测单元182,用于将第一样本序列输入三元组检测网络中进行三元组检测,得到第一样本序列所对应的第一样本准确度;
质量确定单元183,用于将M个样本预测准确度分别与第一样本准确度进行准确度对比,得到M个掩码添加方式分别对应的添加质量指标;
方式确定单元184,用于将添加质量指标最大的掩码添加方式,确定为掩码语言模型的目标掩码添加方式。
其中,该装置800还包括:
样本构建模块19,用于获取正三元组样本,对正三元组样本进行实体替换,生成负三元组样本;
准确检测模块20,用于将正三元组样本及负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到正三元组样本的正样本准确度,以及负三元组样本的负样本准确度;
损失构建模块21,用于获取正三元组样本的正三元组标签以及负三元组样本的负三元组标签,根据正样本准确度、正三元组标签、负样本准确度及负三元组标签,构建第一损失;
第一调整模块22,用于采用第一损失对初始三元组检测网络进行参数调整,得到三元组检测网络。
其中,该掩码添加单元122,包括:
替换添加子单元1221,用于若目标掩码添加方式为替换添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据替换为掩码数据,得到掩码序列;
增加添加子单元1222,用于若目标掩码添加方式为增加添加方式,则基于待更新数据在三元组序列中的位置,在三元组序列中插入掩码数据,得到掩码序列;掩码数据与待更新数据在三元组序列中相邻;
删除添加子单元1223,用于若目标掩码添加方式为删除添加方式,则基于待更新数据在三元组序列中的位置,将三元组序列中的待更新数据及待更新数据的邻接数据替换为掩码数据,得到掩码序列。
其中,该装置800还包括:
第二样本获取模块23,用于获取第二样本序列,为第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取第二样本掩码数据在第二样本序列中所对应的第二样本数据;
第二样本预测模块24,用于将第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据;
第二调整模块25,用于根据第二样本数据及第二样本预测数据构建第二损失,采用第二损失对初始掩码语言模型进行参数调整,得到掩码语言模型。
其中,该掩码处理模块12,包括:
长度获取单元123,用于获取三元组序列的第一序列长度,获取掩码语言模型的模型输入长度;
序列分段单元124,用于若第一序列长度大于模型输入长度,则对三元组序列进行分段处理,得到至少两个子段序列,将至少两个子段序列中包括待更新数据的子段序列,确定为目标子段序列;
向量获取单元125,用于获取组成目标子段序列的序列词组,获取序列词组的词组语义向量及序列词组在三元组序列中的词组位置向量;
向量确定单元126,用于基于词组语义向量及词组位置向量,组成序列词组的词组向量;
该掩码添加单元122,还用于为词组向量添加掩码数据,生成掩码序列。
其中,该向量确定单元126,包括:
嵌入确定子单元1261,用于获取序列词组在知识三元组中的参数类型,基于序列词组的参数类型确定序列词组的嵌入向量;
向量组合子单元1262,用于将序列词组的词组语义向量、词组位置向量及嵌入向量,组成序列词组的初始词组向量;
向量编码子单元1263,用于对初始词组向量进行编码处理,生成序列词组的词组向量。
其中,该替换确定模块14,包括:
参数检测单元141,用于获取候选预测数据的预测概率,获取候选预测数据与待更新数据之间的数据相似度;
候选检测单元142,用于将三元组序列中的待更新数据替换为候选预测数据,得到候选序列,将候选序列输入三元组检测网络中进行三元组检测,得到候选序列的候选准确度;
实体确定单元143,用于将候选预测数据中的目标候选预测数据,确定为针对待更新数据的替换实体;目标候选预测数据为预测概率大于替换概率阈值,且候选准确度大于或等于替换准确度阈值的候选预测数据,目标候选预测数据与待更新数据之间的数据相似度大于替换相似阈值。
其中,知识三元组的数量为N,N为正整数;
该替换确定模块14,包括:
对抗处理单元144,用于将候选预测数据迭代地与N个知识三元组中分别包括的待更新数据进行对抗处理,得到候选预测数据的对抗成功率;
该实体确定单元143,还用于基于知识三元组的数量确定对抗成功阈值,将对抗成功率大于或等于对抗成功阈值的候选预测数据,确定为针对待更新数据的替换实体。
本申请实施例提供了一种数据处理装置,该装置可以获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。通过以上过程,使得在进行实体替换时,不仅依赖于需要被替换的实体(即待更新数据),还会考虑到该实体的其他信息,如与其他实体之间的关系(即知识三元组)等,使得该实体替换可以更为充分全面地采用被替换的实体的相关信息,可以使得实体替换可以更为适配被替换的实体所处的场景,从而可以提高实体替换的适配性及准确性。而且通过以上过程,无需去构建并维护替换规则及可供选择的实体集群等,可以节省资源,而且可以节省替换规则及实体集群匹配所耗费的时间,提高实体替换的效率。
参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,本申请实施例中的计算机设备可以包括:一个或多个处理器901、存储器902和输入输出接口903。该处理器901、存储器902和输入输出接口903通过总线904连接。存储器902用于存储计算机程序,该计算机程序包括程序指令,输入输出接口903用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互;处理器901用于执行存储器902存储的程序指令。
其中,该处理器901可以执行如下操作:
获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;
对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;
对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。
在一些可行的实施方式中,该处理器901可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器902可以包括只读存储器和随机存取存储器,并向处理器901和输入输出接口903提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。例如,存储器902还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图6中各个步骤所提供的实现方式,具体可参见该图3或图6中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行数据处理操作。本申请实施例实现了获取待更新数据所在的知识三元组的三元组序列,基于待更新数据为三元组序列添加掩码数据,生成掩码序列;对掩码序列中的掩码数据进行预测,得到针对待更新数据的候选预测数据;对候选预测数据与待更新数据进行对抗处理,从候选预测数据中,确定针对待更新数据的替换实体。通过以上过程,使得在进行实体替换时,不仅依赖于需要被替换的实体(即待更新数据),还会考虑到该实体的其他信息,如与其他实体之间的关系(即知识三元组)等,使得该实体替换可以更为充分全面地采用被替换的实体的相关信息,可以使得实体替换可以更为适配被替换的实体所处的场景,从而可以提高实体替换的适配性及准确性。而且通过以上过程,无需去构建并维护替换规则及可供选择的实体集群等,可以节省资源,而且可以节省替换规则及实体集群匹配所耗费的时间,提高实体替换的效率。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图6中各个步骤所提供的数据处理方法,具体可参见该图3或图6中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3中的各种可选方式中所提供的方法,实现了宿主机在组件管理渠道中发布虚拟化组件漏洞信息时,可以对该虚拟化组件漏洞信息进行分析验证,对宿主机中所部署的目标虚拟化组件进行检测,当虚拟化组件漏洞信息中存在与目标虚拟化组件相关联的目标组件漏洞信息时,可以认为该虚拟化组件漏洞信息所指示的组件漏洞,可能会影响宿主机中所部署的虚拟机的运行,即,该宿主机中的虚拟机可能会出现组件漏洞,对该组件漏洞进行修复,使得在宿主机中部署的虚拟机中不存在组件漏洞时,也可以实现对可能出现的组件漏洞的预检测,从而可以及时甚至更早发现组件漏洞,提高对数据处理的准确性及效率。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待更新数据所在的知识三元组的三元组序列,基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列;
对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据;
对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体。
2.如权利要求1所述的方法,其特征在于,所述获取待更新数据所在的知识三元组的三元组序列,包括:
获取领域知识图谱,在所述领域知识图谱中获取待更新数据所在的知识三元组,对所述知识三元组进行分词处理,得到所述知识三元组的三元组序列;或者,
获取待处理信息,对所述待处理信息进行解析,确定所述待处理信息中的待更新数据,基于所述待更新数据对所述待处理信息进行三元组解析,得到包括所述待更新数据的知识三元组,获取所述知识三元组的三元组序列。
3.如权利要求1所述的方法,其特征在于,所述基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列,包括:
获取掩码语言模型的目标掩码添加方式,基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列;
所述对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据,包括:
将所述掩码序列输入所述掩码语言模型,对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取第一样本序列,在所述第一样本序列中确定第一样本数据,获取所述第一样本数据在所述第一样本序列中的第一样本位置;
基于所述第一样本位置及所述第一样本数据,采用M个掩码添加方式分别为所述第一样本序列添加第一样本掩码数据,生成M个第一样本掩码序列;M为正整数;
采用所述掩码语言模型分别对所述M个第一样本掩码序列进行预测,得到所述M个第一样本掩码序列分别对应的第一样本预测数据;
基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式。
5.如权利要求4所述的方法,其特征在于,所述基于所述M个第一样本掩码序列分别对应的第一样本预测数据,及所述第一样本序列,从所述M个掩码添加方式中确定所述掩码语言模型的目标掩码添加方式,包括:
将所述M个第一样本掩码序列分别对应的第一样本预测数据,输入三元组检测网络中进行三元组检测,得到所述M个第一样本掩码序列分别对应的样本预测准确度;
将所述第一样本序列输入所述三元组检测网络中进行三元组检测,得到所述第一样本序列所对应的第一样本准确度;
将M个样本预测准确度分别与所述第一样本准确度进行准确度对比,得到所述M个掩码添加方式分别对应的添加质量指标;
将所述添加质量指标最大的掩码添加方式,确定为所述掩码语言模型的目标掩码添加方式。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
获取正三元组样本,对所述正三元组样本进行实体替换,生成负三元组样本;
将所述正三元组样本及所述负三元组样本分别输入初始三元组检测网络中进行三元组检测,得到所述正三元组样本的正样本准确度,以及所述负三元组样本的负样本准确度;
获取所述正三元组样本的正三元组标签以及所述负三元组样本的负三元组标签,根据所述正样本准确度、所述正三元组标签、所述负样本准确度及所述负三元组标签,构建第一损失;
采用所述第一损失对所述初始三元组检测网络进行参数调整,得到所述三元组检测网络。
7.如权利要求3所述的方法,其特征在于,所述基于所述目标掩码添加方式及所述待更新数据在所述三元组序列中的位置,为所述三元组序列添加掩码数据,生成掩码序列,包括:
若所述目标掩码添加方式为替换添加方式,则基于所述待更新数据在所述三元组序列中的位置,将所述三元组序列中的所述待更新数据替换为掩码数据,得到掩码序列;
若所述目标掩码添加方式为增加添加方式,则基于所述待更新数据在所述三元组序列中的位置,在所述三元组序列中插入所述掩码数据,得到所述掩码序列;所述掩码数据与所述待更新数据在所述三元组序列中相邻;
若所述目标掩码添加方式为删除添加方式,则基于所述待更新数据在所述三元组序列中的位置,将所述三元组序列中的所述待更新数据及所述待更新数据的邻接数据替换为所述掩码数据,得到所述掩码序列。
8.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取第二样本序列,为所述第二样本序列添加第二样本掩码数据,得到第二样本掩码序列,获取所述第二样本掩码数据在所述第二样本序列中所对应的第二样本数据;
将所述第二样本掩码序列输入初始掩码语言模型中进行预测,得到第二样本预测数据;
根据所述第二样本数据及所述第二样本预测数据构建第二损失,采用所述第二损失对所述初始掩码语言模型进行参数调整,得到所述掩码语言模型。
9.如权利要求1所述的方法,其特征在于,所述基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列,包括:
获取所述三元组序列的第一序列长度,获取掩码语言模型的模型输入长度;
若所述第一序列长度大于所述模型输入长度,则对所述三元组序列进行分段处理,得到至少两个子段序列,将所述至少两个子段序列中包括所述待更新数据的子段序列,确定为目标子段序列;
获取组成所述目标子段序列的序列词组,获取所述序列词组的词组语义向量及所述序列词组在所述三元组序列中的词组位置向量;
基于所述词组语义向量及所述词组位置向量,组成所述序列词组的词组向量,为所述词组向量添加掩码数据,生成掩码序列。
10.如权利要求9所述的方法,其特征在于,所述基于所述词组语义向量及所述词组位置向量,组成所述序列词组的词组向量,包括:
获取所述序列词组在所述知识三元组中的参数类型,基于所述序列词组的参数类型确定所述序列词组的嵌入向量;
将所述序列词组的词组语义向量、所述词组位置向量及所述嵌入向量,组成所述序列词组的初始词组向量;
对所述初始词组向量进行编码处理,生成所述序列词组的词组向量。
11.如权利要求1所述的方法,其特征在于,所述对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体,包括:
获取所述候选预测数据的预测概率,获取所述候选预测数据与所述待更新数据之间的数据相似度;
将所述三元组序列中的待更新数据替换为所述候选预测数据,得到候选序列,将所述候选序列输入三元组检测网络中进行三元组检测,得到所述候选序列的候选准确度;
将所述候选预测数据中的目标候选预测数据,确定为针对所述待更新数据的替换实体;所述目标候选预测数据为预测概率大于替换概率阈值,且候选准确度大于或等于替换准确度阈值的候选预测数据,所述目标候选预测数据与所述待更新数据之间的数据相似度大于替换相似阈值。
12.如权利要求1所述的方法,其特征在于,所述知识三元组的数量为N,N为正整数;
所述对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体,包括:
将所述候选预测数据迭代地与N个知识三元组中分别包括的待更新数据进行对抗处理,得到所述候选预测数据的对抗成功率;
基于所述知识三元组的数量确定对抗成功阈值,将所述对抗成功率大于或等于所述对抗成功阈值的候选预测数据,确定为针对所述待更新数据的替换实体。
13.一种数据处理装置,其特征在于,所述装置包括:
序列获取模块,用于获取待更新数据所在的知识三元组的三元组序列;
掩码处理模块,用于基于所述待更新数据为所述三元组序列添加掩码数据,生成掩码序列;
掩码预测模块,用于对所述掩码序列中的掩码数据进行预测,得到针对所述待更新数据的候选预测数据;
替换确定模块,用于对所述候选预测数据与所述待更新数据进行对抗处理,从所述候选预测数据中,确定针对所述待更新数据的替换实体。
14.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
CN202310964760.3A 2023-08-02 2023-08-02 数据处理方法、装置、计算机及存储介质 Active CN116662579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310964760.3A CN116662579B (zh) 2023-08-02 2023-08-02 数据处理方法、装置、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310964760.3A CN116662579B (zh) 2023-08-02 2023-08-02 数据处理方法、装置、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN116662579A true CN116662579A (zh) 2023-08-29
CN116662579B CN116662579B (zh) 2024-01-26

Family

ID=87724682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310964760.3A Active CN116662579B (zh) 2023-08-02 2023-08-02 数据处理方法、装置、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN116662579B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668313A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
WO2021151292A1 (zh) * 2020-08-28 2021-08-05 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
CN114218926A (zh) * 2021-12-17 2022-03-22 中山大学 一种基于分词与知识图谱的中文拼写纠错方法及系统
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114528394A (zh) * 2022-04-22 2022-05-24 杭州费尔斯通科技有限公司 一种基于掩码语言模型的文本三元组提取方法及装置
CN114662491A (zh) * 2022-03-23 2022-06-24 网易(杭州)网络有限公司 语料处理方法、比喻信息处理方法、装置及电子设备
CN114936287A (zh) * 2022-01-30 2022-08-23 阿里云计算有限公司 预训练语言模型的知识注入方法和相应的交互系统
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN115983210A (zh) * 2022-12-19 2023-04-18 中国平安人寿保险股份有限公司 表格数据增强方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151292A1 (zh) * 2020-08-28 2021-08-05 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
CN112668313A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114218926A (zh) * 2021-12-17 2022-03-22 中山大学 一种基于分词与知识图谱的中文拼写纠错方法及系统
CN114036933A (zh) * 2022-01-10 2022-02-11 湖南工商大学 基于法律文书的信息抽取方法
CN114936287A (zh) * 2022-01-30 2022-08-23 阿里云计算有限公司 预训练语言模型的知识注入方法和相应的交互系统
CN114662491A (zh) * 2022-03-23 2022-06-24 网易(杭州)网络有限公司 语料处理方法、比喻信息处理方法、装置及电子设备
CN114528394A (zh) * 2022-04-22 2022-05-24 杭州费尔斯通科技有限公司 一种基于掩码语言模型的文本三元组提取方法及装置
CN115357719A (zh) * 2022-10-20 2022-11-18 国网天津市电力公司培训中心 基于改进bert模型的电力审计文本分类方法及装置
CN115983210A (zh) * 2022-12-19 2023-04-18 中国平安人寿保险股份有限公司 表格数据增强方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116662579B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
US20200301954A1 (en) Reply information obtaining method and apparatus
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN107391549B (zh) 基于人工智能的新闻召回方法、装置、设备及存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
CN113254671B (zh) 基于query分析的图谱优化方法、装置、设备及介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114519397A (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN117668295A (zh) 视频文本的检索方法、装置及电子设备
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN116662579B (zh) 数据处理方法、装置、计算机及存储介质
CN114706841B (zh) 查询内容库构建方法、装置、电子设备及可读存储介质
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40091120

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant