CN112989024B

CN112989024B - 文本内容的关系提取方法、装置、设备及存储介质

Info

Publication number: CN112989024B
Application number: CN202110334110.1A
Authority: CN
Inventors: 孟广浩; 顾秀森; 王国华; 张雨春; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2023-04-07
Anticipated expiration: 2041-03-29
Also published as: CN112989024A

Abstract

本申请公开了一种文本内容的关系提取方法、装置、设备及可读存储介质。涉及机器学习领域。该方法包括：获取目标文档和实体参数；以目标实体在目标文档的语句中的分布情况，确定目标实体之间的一跳关联关系；基于目标实体之间的一跳关联关系，确定目标实体之间的多跳关联关系；基于一跳关联关系和多跳关联关系提取目标文档中目标实体之间的实体关系。在一跳关联关系和多跳关联关系的基础上进行实体关系的预测，由于实体特征由一跳和多跳关联关系共同确定，也即通过多跳关联关系整合了多个句子之间的信息，便于模型在实体关系分析时进行跨句推理，避免了一跳关联关系的局限性，提高了实体关系的预测的准确性。

Description

文本内容的关系提取方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种文本内容的关系提取方法、装置、设备及存储介质。

背景技术

关系抽取是指对文本内容中的实体之间的关系进行预测，得到文本内容所包含的实体关系。其中，关系抽取可以应用于物理服务中，也可以应用于云服务器中。示意性的，文章《A家族的兴衰历史》中所包含的实体为：人物a、人物b和公司c，其中，候选关系包括亲属和持有，则对文章进行实体之间的关系预测后，得到实体关系包括：人物a和人物b属于亲属关系，人物b持有公司c。

相关技术中，在实现关系抽取时，通常是通过构建实体之间的关联关系进行实体关系的预测，其中，实体间的关联关系包括：处于同一语句的实体之间的关联关系、处于相邻句子的实体之间的关联关系、属于同一表达含义的实体之间的关联关系等，在确定实体之间的关联关系后，根据关联关系确定每个实体的特征表达，并基于特征表达对一组实体对进行关系预测，得到实体关系。

然而，上述方案中，由于实体的特征表达是根据关联关系确定的，当其中两个实体之间的关联关系判断存在偏差时，则会导致整体的实体特征表达偏差较大，从而影响实体关系的预测结果准确率。

发明内容

本申请实施例提供了一种文本内容的关系提取方法、装置、设备及存储介质，能够提高文本内容的关系提取准确率。所述技术方案如下：

一方面，提供了一种文本内容的关系提取方法，所述方法包括：

获取目标文档和实体参数，所述目标文档为实体关系待提取的文档，所述实体参数中包括所述目标文档中关系待确定的目标实体；

以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体之间的一跳关联关系，所述一跳关联关系用于指示处于同个语句的目标实体之间的关联关系；

基于所述目标实体之间的所述一跳关联关系，确定所述目标实体之间的多跳关联关系，所述多跳关联关系用于指示在指定跳数范围内目标实体之间的关联关系；

基于所述一跳关联关系和所述多跳关联关系提取所述目标文档中目标实体之间的所述实体关系。

另一方面，提供了一种文本内容的关系提取装置，所述装置包括：

获取模块，用于获取目标文档和实体参数，所述目标文档为实体关系待提取的文档，所述实体参数中包括所述目标文档中关系待确定的目标实体；

确定模块，用于以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体之间的一跳关联关系，所述一跳关联关系用于指示处于同个语句的目标实体之间的关联关系；

所述确定模块，还用于基于所述目标实体之间的所述一跳关联关系，确定所述目标实体之间的多跳关联关系，所述多跳关联关系用于指示在指定跳数范围内目标实体之间的关联关系；

提取模块，用于基于所述一跳关联关系和所述多跳关联关系提取所述目标文档中目标实体之间的所述实体关系。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述文本内容的关系提取方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的文本内容的关系提取方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的文本内容的关系提取方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在根据语句中实体分布情况得到实体之间的一跳关联关系之后，基于一跳关联关系分析得到多跳关联关系，从而在一跳关联关系和多跳关联关系的基础上进行实体关系的预测，由于实体特征由一跳和多跳关联关系共同确定，也即通过多跳关联关系整合了多个句子之间的信息，便于模型在实体关系分析时进行跨句推理，避免了一跳关联关系的局限性，提高了实体关系的预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的文本内容的关系提取方法的整体过程示意图；

图3是本申请一个示例性实施例提供的文本内容的关系提取方法的流程图；

图4是基于图3示出的实施例提供的实体之间构建一跳关联关系的示意图；

图5是基于图3示出的实施例提供的实体之间构建多跳关联关系的示意图；

图6是本申请另一个示例性实施例提供的文本内容的关系提取方法的流程图；

图7是本申请另一个示例性实施例提供的文本内容的关系提取方法的流程图；

图8是本申请一个示例性实施例提供的文本内容的关系提取装置的结构框图；

图9是本申请另一个示例性实施例提供的文本内容的关系提取装置的结构框图；

图10是本申请一个示例性的实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

实体：是指客观存在并且相互之间存在区别的事物，本申请实施例中，实体是指文本内容中出现的需要进行相互之间关系确定的事物。在一些实施例中，实体还对应有实体片段。其中，实体片段为对实体进行拆分得到的片段，或者，实体片段为实体名称的别名，或者，实体片段对为用于代表实体的其他名称，本申请实施例对实体片段的生成方式不加以限定。

关系抽取：是指对文本内容中实体之间的实体关系进行预测，得到文本内容所包含的实体关系。示意性的，文章《A家族的兴衰历史》中所包含的实体为：人物a、人物b和公司c，其中，候选关系包括亲属和持有，则对文章进行实体之间的关系预测后，得到实体关系包括：人物a和人物b属于亲属关系，人物b持有公司c。

在一些实施例中，关系抽取可以应用于长文本内容中，也即，针对长文本内容中的实体关系进行预测。而长文本关系抽取通常需要跨越的句子数量较多，因此模型需要对多个句子进行理解，并整合文本内容的相关信息进行实体关系的判断。

注意力机制：来源于对人类视觉的研究，由于人类会选择性地关注所有信息的一部分，而忽略其他可见的信息，故对应的，在深度学习中的注意力机制和人类视觉的注意力机制类似，是在众多信息中把注意力集中放在重要的点上，确定出关键信息。

基于Transformer的双向编码(Bidirectional Encoder Representations fromTransformers，BERT)模型：是一种预训练模型，使用Transformer作为算法的主要框架，能够捕捉语句中的双向关系；使用更强大的机器训练更大规模的数据，BERT本质上是通过在海量语料的基础上运行自监督学习方法，为单词学习特征表示，其中自监督学习是指在没有人工标注的数据上运行的监督学习。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

结合上述名词简介，对本申请实施例的应用场景进行举例说明：

第一，在内容推荐场景中，以新闻内容推荐为例。对新闻内容进行实体关系的提取后，根据提取得到的实体关系向新闻内容标注标签，以便于对新闻内容的分类。

示意性的，以娱乐新闻为例，从新闻内容中提取得到的实体关系包括：女星A出演电视剧1，男星B出演电视剧1，公司C投资电视剧1。则将“女星A-电视剧1”作为标签向新闻内容进行标注，将“男星B-电视剧1”作为标签向新闻内容进行标注，将“公司C-电视剧1”作为标签向新闻内容进行标注。

其中，在对新闻内容进行实体关系的提取时，首先确定实体在新闻内容中的一跳关联关系，也即出现在同一新闻语句中的实体之间的关联关系，并在一跳关联关系的基础上确定实体之间的多跳关联关系，也即未出现在同一新闻语句中的实体在预设跳数范围内的关联关系，从而根据一跳关联关系和多跳关联关系确定每个实体的特征向量表达，并基于特征向量表达预测每一对实体之间的实体关系。

在进行新闻内容的推荐时，根据标注的实体关系对新闻内容进行分类，并根据用户针对实体关系的兴趣程度向用户推荐对应的新闻内容。

第二，在图谱扩充场景中，以企业图谱为例进行说明。文本内容实现为企业介绍文档，则在对企业介绍文档进行实体关系的提取后，根据提取得到的实体关系对企业图谱进行扩充，将提取得到的实体关系扩充至企业图谱中。

示意性的，对企业介绍文档进行实体关系提取后，得到的实体关系包括：人物a工作于公司c，人物b工作于公司c，人物a和人物b属于亲属关系。则将“人物a-公司c”、“人物b-公司c”和“人物a-人物b”的关系增加至企业图谱中。

其中，在对企业介绍文档进行实体关系的提取时，首先确定实体在企业介绍文档中的一跳关联关系，也即出现在同一介绍语句中的实体之间的关联关系，并在一跳关联关系的基础上确定实体之间的多跳关联关系，也即未出现在同一介绍语句中的实体在预设跳数范围内的关联关系，从而根据一跳关联关系和多跳关联关系确定每个实体的特征向量表达，并基于特征向量表达预测每一对实体之间的实体关系。

值得注意的是，本申请实施例提供的文本内容的关系提取方法，可以由终端实现，也可以由服务器实现，还可以由终端和服务器协同实现。其中，终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种，服务器可以是物理服务器，也可以是提供云计算服务的云服务器，且服务器可以实现为一台服务器，也可以是多个服务器构成的服务器集群或分布式系统。

其中，当终端和服务器协同实现本申请实施例提供的方案时，终端和服务器可以通过有线或无线通信方式进行直接或间接连接，本申请实施例对此不加以限定。

请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括终端110、服务器120，终端110和服务器120之间通过通信网络130连接；

本申请实施例中，以内容推荐场景为例进行实施环境的介绍。终端110中安装有内容阅览程序，且内容阅览程序中登录有目标账号。该内容阅览程序可以实现为视频播放程序、电子书阅读程序、即时通讯应用程序、浏览器、游戏、工具类应用程序等，本申请实施例对此不加以限定。终端110将目标账号在内容阅览过程中产生的阅览数据上传至服务器120中，存储得到目标账号的历史阅览记录、历史点击记录、历史停留记录等历史交互内容。

服务器120在向终端110进行内容推荐之前，首先对待推荐的候选内容进行实体关系的预测，在预测得到候选内容中的实体关系后，向候选内容进行标签标注，标注出候选内容中所包含的实体关系。

服务器120接收到终端110发送的内容推荐请求时，首先根据目标账号的历史交互内容确定目标账号的兴趣偏好，该兴趣偏好中包括目标账号所感兴趣的目标实体关系，从而将标注有目标实体关系的候选内容发送至目标账号，作为向目标账号推荐的内容。

值得注意的是，上述通信网络130可以实现为有线网络，也可以实现为无线网络，且通信网络130可以实现为局域网、城域网或广域网中的任意一种，本申请实施例对此不加以限定。

值得注意的是，上述服务器120可以实现为云端的云服务器，其中，云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器120还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

本申请实施例中，服务器120中提供的文本内容的关系提取方法及实现为应用服务层中的业务服务。

示意性的，请参考图2，其示出了本申请一个示例性实施例提供的文本内容的关系提取方法的整体过程示意图，如图2所示，针对文档200，首先通过编码层210对文档200进行编码，也即提取文档200中的编码特征，将文档200中的单词转换为特征序列。

继而通过多跳推理层220对编码特征进行图结构化处理。如图2所示，根据编码特征在多跳推理层220生成实体片段图221和实体图222，其中，实体片段图221是通过在实体片段之间建立关联关系得到的图，实体图222是通过在实体之间建立一跳关联关系和多跳关联关系得到的图。

将实体片段图221和实体图222聚合得到聚合特征223，并基于聚合特征223对两个实体之间的实体关系通过分类层230进行预测，预测得到实体关系。

值得注意的是，在上述文档编码过程中，实体是预先设定的，示意性的，预先给定的实体包括：人物a、人物b、人物c、公司d、公司e，从而在对编码特征进行图结构化处理时，针对性的对给定的实体进行图结构化处理。

值得注意的是，在上述实体关系预测的过程中，实体间可能存在的实体关系是给定的，示意性的，给定的候选实体关系包括：就业、持有、亲属，则在进行实体关系预测时，如人物a和人物b之间，即预测人物a和人物b是属于就业关系，还是持有关系，还是亲属关系。

结合上述名词简介以及应用场景，对本申请实施例提供的文本内容的关系提取方法进行说明，以由服务器执行以完成该方法为例进行说明，如图3所示，该方法包括：

步骤301，获取目标文档和实体参数。

其中，目标文档为实体关系待提取的文档，实体参数中包括目标文档中关系待确定的目标实体。

在一些实施例中，获取目标文档和实体参数的方式包括如下方式中的至少一种：

第一，目标文档为终端上传至服务器进行实体关系预测的文档，也即，用户针对目标文档存在实体关系分析需求，故将目标文档上传至服务器，其中，实体参数中的目标实体为用户在上传目标文档时指定的实体，也即，用户存在对目标文档中的指定实体进行实体关系分析的需求。

示意性的，以论文验收场景为例，用户将论文上传至服务器，并指定在论文中出现的实体，由服务器对论文中出现的实体进行关系分析，得到实体关系，从而用户能够在分析得到的实体关系的基础上，对论文整体内容的准确率进行分析，仅针对论文中的核心部分内容进行核验。

第二，目标文档为服务器中存储的候选推荐内容，也即，目标文档为待推荐至用户进行浏览的内容。则服务器直接从内容池或者内容库中依次获取目标内容，并针对每个目标内容进行实体关系的预测。

其中，实体参数中的目标实体为针对每个候选内容预先设定的，或者，将每个候选内容输入至实体提取模型中提取得到的。其中实体提取模型为预先训练得到的神经网络模型。

示意性的，以新闻内容推荐场景为例，内容池中包括当前待推荐的新闻内容，针对第i个新闻内容，i为正整数，首先将第i个新闻内容输入至实体提取模型中，提取得到第i个新闻内容中所包含的目标实体；从而获取第i个新闻内容和第i个新闻内容中所包含的目标实体作为一组待进行实体关系预测的数据。

值得注意的是，上述实施例中，以接收终端发送数据，和从数据库中获取数据为例进行说明，在一些实施例中，目标文档和实体参数还可以通过其他方式获取，本申请实施例对此不加以限定。

在一些实施例中，实体参数中还包括各个目标实体之间的候选关系，也即，从候选关系中对实体之间的实体关系进行预测，示意性的，候选关系包括：关系1、关系2和关系3，则在确定实体之间的实体关系时，从关系1、关系2和关系3中选择。

步骤302，以目标实体在目标文档的语句中的分布情况，确定目标实体之间的一跳关联关系。

一跳关联关系用于指示处于同个语句的目标实体之间的关联关系。

在一些实施例中，当至少两个实体出现在同一个语句中，则构建该至少两个实体之间的一跳关联关系。

在一些实施例中，以目标实体在目标文档的语句中的分布情况，将处于同一语句的目标实体之间构建语句关联关系，将目标文档中每个语句对应的语句关联关系结合，得到目标实体之间的一跳关联关系。由于目标实体所在的语句可以是一句，也可以是多句，故，需要将每个语句所构建的语句关联关系结合，得到目标文档对应的目标实体之间的一跳关联关系。

示意性的，请参考图4，目标文档400中包括语句410“人物a就职于公司c”以及语句420“人物a与人物b是亲属”，则根据语句410能够构建人物a与公司c之间的语句关联关系，根据语句420能够构建人物a与人物b之间的语句关联关系，将两个语句关联关系结合，则对应表现为人物a与人物b、公司c分别构建关联关系所得到的一跳关联关系。

在一些实施例中，一跳关联关系中的每一条一跳边还对应有注意力得分，根据一跳边的注意力得分能够得到目标实体之间的一跳注意力矩阵。也即，基于目标实体之间的一条关联关系，确定目标实体之间的一跳注意力矩阵。其中，一跳注意力矩阵中的矩阵参数用于表示对应的目标实体之间的关联度。

示意性的，以实体节点e_i和e_j为例，则一跳边(e_i，e_j)的注意力得分计算方式如下公式一所示。

公式一：

其中，

和

是可预先训练得到的参数。σ是一个激活函数。

表示实体节点e_i在l-1层的特征嵌入，

表示实体节点e_j在l-1层的特征嵌入，tanh表示双曲正切函数。

则对应注意力得分的一跳注意力矩阵如下公式二所示。

公式二：

即表示当实体节点e_i和e_j之间具有一跳边时，则矩阵参数取公式一计算得到的

当实体节点e_i和e_j之间不具有一跳边时，矩阵参数取负无穷。针对每个矩阵参数最后进行分类softmax运算后，得到一跳注意力矩阵A^(l)。

步骤303，基于目标实体之间的一跳关联关系，确定目标实体之间的多跳关联关系。

多跳关联关系用于指示在指定条数范围内的目标实体之间的关联关系。

在一些实施例中，以目标实体在目标文档的语句中的分布情况，得到目标文档对应的目标实体之间的一跳关联关系后，针对相互之间不存在一跳关联关系的目标实体，在预设跳数范围内确定多跳关联关系。

示意性的，请参考图5，在建立了实体510和实体520、实体520和实体530、实体530和实体540之间的一跳关联关系后，实体510和实体530、实体540之间不存在一跳关联关系，而预设条数范围为3跳，则确定实体510和实体530、实体510和实体540、实体520和实体540之间的多跳关联关系。

在一些实施例中，在确定上述一跳注意力矩阵后，对一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵，其中，多跳注意力矩阵中的参数用于表示在指定条数范围内的目标实体之间的关联度。

在一些实施例中，在指定跳数范围对应的幂次范围内，对一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵。

示意性的，多跳注意力矩阵的计算方式请参考如下公式三。

公式三：

其中，K为最大幂迭代步数，A_i ^(l)为实体节点i的一跳注意力得分，

表示将一跳注意力矩阵的前k-1次幂的所有非零注意力值在第k次幂设置为零，然后执行softmax进行归一化。θ表示不同幂的注意分布，

表示对实体节点i第k次幂的注意力权重。

其中，

的计算方式如下公式四所示。

公式四：

其中，FFNN表示前馈神经网络。

步骤304，基于一跳关联关系和多跳关联关系提取目标文档中目标实体之间的实体关系。

在一些实施例中，基于一跳关联关系和多跳关联关系确定目标文档中目标实体的注意力特征，并基于注意力特征对目标实体进行特征分析，得到目标实体之间的实体关系。

综上所述，本申请实施例提供的文本内容的关系提取方法，在根据语句中实体分布情况得到实体之间的一跳关联关系之后，基于一跳关联关系分析得到多跳关联关系，从而在一跳关联关系和多跳关联关系的基础上进行实体关系的预测，由于实体特征由一跳和多跳关联关系共同确定，也即通过多跳关联关系整合了多个句子之间的信息，便于模型在实体关系分析时进行跨句推理，避免了一跳关联关系的局限性，提高了实体关系的预测的准确性。

在一个可选的实施例中，在对实体关系进行预测之前，还需要对目标文档的实体片段进行图结构处理，图6是本申请一个示例性实施例提供的文本内容的关系提取方法的流程图，以该方法应用于服务器中为例进行说明，如图6所示，该方法包括：

步骤601，获取目标文档和实体参数。

在一些实施例中，实体参数中还包括各个目标实体之间的候选关系，也即，从候选关系中对实体之间的实体关系进行预测。

步骤602，以目标实体在目标文档的语句中的分布情况，确定目标实体之间的一跳关联关系。

步骤603，基于目标实体之间的一跳关联关系，确定目标实体之间的多跳关联关系。

步骤604，基于一跳关联关系和多跳关联关系确定目标实体的注意力特征。

示意性的，在l层，实体节点u的隐藏状态，也即注意力特征通过如下公式五计算得到。

公式五：

其中，h(l)表示第l层，h无特殊含义，仅仅表示hidden的简写，代表隐藏状态，并且与后续的公式七的表示区分开，E(u)表示实体节点u的邻居节点，σ是激活函数。

和

是预先训练得到的参数。

表示邻居节点v在l-1层的特征嵌入，

表示多跳注意力矩阵中，实体节点u和实体节点v之间的多跳注意力得分。

步骤605，以目标实体在目标文档的语句中的分布情况，确定目标实体的实体片段关联关系。

实体片段关联关系用于指示处于同个语句的目标实体的实体片段之间的关联关系。

在一些实施例中，首先生成目标实体对应的实体片段，实体片段时对目标实体进行变形得到的片段。在一些实施例中，实体片段包括目标实体中的截取片段，或者，目标实体名称的别名，或者，其他能够代表目标实体的名称，本申请实施例对实体片段的生成方式不加以限定。如：对实体“人物a”进行变形，得到片段“人物”和“角色”。

在同一目标实体变形得到的实体片段之间建立第一关联关系，在处于同一语句的实体片段之间建立第二关联关系，以及在实体片段与自身之间建立第三关联关系，对第一关联关系、第二关联关系和第三关联关系进行结合，得到实体片段关联关系。

示意性的，对实体片段进行图结构处理时，首先建立一个异构实体片段图，该图的节点代表实体片段，初始化表示为

其中w_j属于m_i的邻居节点。对实体片段进行图结构处理后，得到三种不同类型的边：

1、实体内边：对同一目标实体的实体片段之间连接的边；

2、实体间边：在一个语句中共同出现的实体片段之间连接的边；

3、自循环边：每个实体片段与自身建立的一条边。

步骤606，基于实体片段关联关系确定目标实体的片段特征。

在一些实施例中，利用图形卷积神经网络与每个实体片段节点及其邻居进行交互，以执行细粒度的关系推理。在第l层，实体片段节点u的隐藏状态可以计算如下公式六所示。

公式六：

其中，h(l)表示第l层，h无特殊含义，仅仅表示hidden的简写，并且与后续的公式七的表示区分开，P表示不同类型的边，N_p(u)表示在第p类型的边中连接的节点u的邻居节点。σ是一个激活函数，

和

为预先训练得到的参数。

表示实体片段节点v在第l-1层的特征嵌入。

步骤607，对注意力特征和片段特征进行聚合，得到聚合特征。

在一些实施例中，通过聚合网络对注意力特征和片段特征进行聚合，其中，片段特征代表局部信息，注意力特征代表全局信息。利用图神经网络来模拟实体片段和实体之间的交互。在第l层，图的节点包括实体片段节点和实体节点，分别用m^h(l)和e^h(l)表示。每个实体和该实体的所有片段之间建立边。

以第l层为例，实体节点的特征向量和实体片段的特征向量表达如下公式七所示。

公式七：

其中，

表示节点u的特征向量表达，

表示实体片段节点u的特征向量表达。M(u)表示节点u的邻居节点，σ是激活函数。

和

是预先训练得到的参数。

表示实体片段邻居节点v的特征向量表达，

表示实体邻居节点v的特征向量表达。

步骤608，基于聚合特征提取目标文档中目标实体之间的实体关系。

在一些实施例中，将聚合特征输入至实体关系分析模型，输出得到目标实体之间的实体关系。

本实施例提供的方法，将实体图和实体片段图结合得到实体的特征表达，其中，实体图代表的是目标文档中的全局信息，实体片段图代表的是目标文档中的局部信息，将全局信息和局部信息结合，提高了实体关系分析过程中所掌握的信息量，从而提高了实体关系的预测准确率。

在一个可选的实施例中，在对聚合特征进行实体关系分析时，通常是通过对实体对候选关系进行概率预测。图7是本申请另一个示例性实施例提供的文本内容的关系提取方法的流程图，以该方法由服务器执行实现为例，如图7所示，该方法包括：

步骤701，获取目标文档和实体参数。

在一些实施例中，在获取目标文档和实体参数时，首先对目标文档进行编码，从而基于编码特征进行后续的图结构的生成。

示意性的，将包含n个词汇的目标文档

转换为特征序列，在一些实施例中，使用BERT模型对目标文档进行编码，得到编码特征如下公式八所示。

公式八：[u₁,u₂,…,u_n]＝BERT[w₁,w₂,…,w_n]

w_k表示目标文档中的第k个词汇。然后，用实体类型嵌入模型和共指嵌入模型连接特征表示，如下公式九所示。

公式九：h_i＝[u_i；E_t(t_i)；E_c(c_i)]

其中，t_i和c_i分别是文档中第i个字符对应的命名实体类型和实体标识，其中，命名实体类型和实体标识为预先设定的。E_t()和E_c()分别代表实体类型嵌入模型和共指嵌入模型。

步骤702，以目标实体在目标文档的语句中的分布情况，确定目标实体之间的一跳关联关系。

步骤703，基于目标实体之间的一跳关联关系，确定目标实体之间的多跳关联关系。

步骤704，基于一跳关联关系和多跳关联关系确定目标实体的注意力特征。

值得注意的是，注意力特征的计算方式在上述步骤604中已进行了介绍，此处不再赘述。

步骤705，以目标实体在目标文档的语句中的分布情况，确定目标实体的实体片段关联关系。

步骤706，基于实体片段关联关系确定目标实体的片段特征。

在一些实施例中，利用图形卷积神经网络与每个实体片段节点及其邻居进行交互，以执行细粒度的关系推理。

步骤707，将目标实体对应的注意力特征和片段特征进行拼接，得到目标实体对应的聚合特征。

在一些实施例中，通过聚合网络对注意力特征和片段特征进行聚合，其中，片段特征代表局部信息，注意力特征代表全局信息。利用图神经网络来模拟实体片段和实体之间的交互。经过L层的推理，通过拼接每一层的特征得到实体u的语义表达，如下公式十所示。

公式十：

其中，

表示实体u在第l层的表达。

步骤708，基于聚合特征提取目标文档中目标实体之间的实体关系。

示意性的，目标实体中包括第一目标实体和第二目标实体，针对第一目标实体和第二目标实体构建的实体对，获取第一目标实体对应的第一聚合特征以及第二目标实体对应的第二聚合特征。对第一聚合特征和第二聚合特征按照预设拼接结构进行拼接，得到拼接特征组，对拼接特征组进行概率预测，得到第一目标实体和第二目标实体之间，相对于候选关系的概率分布情况，基于概率分布情况从候选关系中确定第一目标实体与第二牧宝实体之间的实体关系。

示意性的，对于每个实体对(e_i,e_j)，通过如下公式十一进行拼接。

公式十一：I_i,j＝[e_i；_j；|e_i-e_j|；e_i⊙e_j]

其中|e_i-e_j|表示两个实体的语义表示之间相减的绝对值。e_i⊙e_j表示元素式乘法。对于每个实体对(e_i,e_j)，我们计算每个关系类型r的概率采用如下公式十二。

公式十二：P(r|e_i,e_j)＝σ(W_dI_i,j+b_d)

其中，W_d和b_d是可训练权重和偏差，σ是sigmoid函数。

在一些实施例中，上述计算公式中训练得到的参数还可以通过损失函数进行训练。也即，通过标注有参考实体关系的样本文档进行训练，其中，通过模型得到预测实体关系后，基于参考实体关系和预测实体关系之间的差异，对上述参数进行训练。其中，差异计算是通过损失函数得到的，该损失函数如下公式十三所示。

公式十三：

其中，

是样本文档标注的参考实体关系，P(r|e_i,e_j)是预测得到的实体之间对应候选关系的概率，R为所有候选关系的集合，r为当前进行预测的候选关系。

本实施例提供的方法，通过对两个目标实体之间的聚合特征进行预设方式的拼接，从而在拼接方式中对两个实体之间的聚合特征进行关联度的确定，并得到两个实体之间预测得到的实体关系，提高了实体关系的预测准确率。

整体而言，本申请实施例主要包括三个节点，1、编码阶段；2、多跳推理阶段；3、分类阶段。

针对三个阶段分别进行整体说明：

1、编码阶段

使用预先训练的语言模型(如：BERT、RoBERTa、用于语言生成的遮蔽序列到序列预训练模型(Masked Sequence to Sequence Pre-training，MASS)、XLNet)对目标文档进行编码，将目标文档转换为特征序列。

2、多跳推理阶段

其中包括三个部分，2.1.实体片段图；2.2.实体图；2.3.聚合网络。其中，实体片段图用于进行细粒度语义推理；实体图用于进行粗粒度的语义推理。聚合网络用于将实体片段图的局部信息和实体图的全局信息集成在一起。

实体片段图的节点为目标实体的实体片段，其中，属于同一实体的实体片段之间连接有一条边，在同一个句子中出现的实体片段之间连接有一条边，以及实体片段与自己本身建立有一条边。利用图形卷积神经网络与每个节点及其邻居进行交互，以执行细粒度的关系推理。

实体图的节点为实体，其中，在一个句子中共现的实体用一跳边相连，一跳边还包括每个实体的自循环边。通过注意扩散对实体节点进行多跳注意力计算。首先计算一跳边上的注意力权重，然后利用一跳边上的注意力权重来计算其他跳的注意力权重。

聚合网络将实体片段信息与实体信息整合在一起。实体片段代表局部信息，实体代表全局信息。利用图神经网络模拟实体片段和实体之间的交互。

3、分类阶段

经过L层推理，通过拼接每一层的特征得到实体u的最终语义表达，针对两个实体构成的实体对，计算实体对与候选关系之间的概率情况，从而从候选关系中确定后实体对之间的实体关系。

示意性的，本申请实施例提供的文本内容的关系提取方法，所使用的数据集如下表一所示：

表一

示意性的，数据集涉及的关系包括：别名、持股、被持股。

模型中图神经网络的层数是2，幂迭代步数也是2。在编码层中，受BERT输入长度的限制，所有测试模型都以短段落的形式顺序编码长文档。

本申请在通过测试集样本进行测试后，得到的测试结果如下表二所示。

表二

综上所述，通过多跳注意力算法建模跨多个句子的实体间的交互可以整合多个句子之间的信息，方便模型进行跨句推理。

长文本所对应的实体图通常更大、更复杂，更容易出现过度平滑和错误传播等问题，本申请实施例的方案采用多跳注意力算法可以改善上述缺陷。

图8是本申请一个示例性实施例提供的文本内容的关系提取装置的结构框图，如图8所示，该装置包括：

获取模块810，用于获取目标文档和实体参数，所述目标文档为实体关系待提取的文档，所述实体参数中包括所述目标文档中关系待确定的目标实体；

确定模块820，用于以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体之间的一跳关联关系，所述一跳关联关系用于指示处于同个语句的目标实体之间的关联关系；

所述确定模块820，还用于基于所述目标实体之间的所述一跳关联关系，确定所述目标实体之间的多跳关联关系，所述多跳关联关系用于指示在指定跳数范围内目标实体之间的关联关系；

提取模块830，用于基于所述一跳关联关系和所述多跳关联关系提取所述目标文档中目标实体之间的所述实体关系。

在一个可选的实施例中，所述确定模块820，还用于基于所述目标实体之间的所述一跳关联关系，确定与所述目标实体之间的一跳注意力矩阵，所述一跳注意力矩阵中的矩阵参数用于表示对应的目标实体之间的关联度；对所述一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵作为所述多跳关联关系，所述多跳注意力矩阵中的参数用于表示在所述指定跳数范围内的所述目标实体之间的关联度。

在一个可选的实施例中，所述确定模块820，还用于在所述指定跳数范围对应的幂次范围内，对所述一跳注意力矩阵进行幂次处理，得到所述多跳注意力矩阵。

在一个可选的实施例中，所述确定模块820，还用于基于所述一跳关联关系和所述多跳关联关系确定所述目标实体的注意力特征；

所述提取模块830，还用于基于所述注意力特征对所述目标实体进行特征分析，得到所述目标实体之间的实体关系。

在一个可选的实施例中，所述确定模块820，还用于以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体的实体片段关联关系，所述实体片段关联关系用于指示处于同个语句的目标实体的实体片段之间的关联关系；基于所述实体片段关联关系确定所述目标实体的片段特征；

所述提取模块830，还用于对所述注意力特征和所述片段特征进行聚合，得到聚合特征；基于所述聚合特征提取所述目标文档中目标实体之间的所述实体关系。

在一个可选的实施例中，如图9所示，所述确定模块820，包括：

生成单元821，用于生成所述目标实体对应的实体片段，所述实体片段是对所述目标实体进行变形得到的片段；

建立单元822，用于在从同一目标实体变形得到的实体片段之间建立第一关联关系；

所述建立单元822，还用于在处于同一语句的实体片段之间建立第二关联关系；

所述建立单元822，还用于在所述实体片段与自身之间建立第三关联关系；

结合单元823，用于对所述第一关联关系、所述第二关联关系和所述第三关联关系进行结合，得到所述实体片段关联关系。

在一个可选的实施例中，所述提取模块830，还用于将所述目标实体对应的所述注意力特征和片段特征进行拼接，得到所述目标实体对应的聚合特征。

在一个可选的实施例中，所述目标实体中包括第一目标实体和第二目标实体；

所述获取模块810，还用于针对所述第一目标实体和所述第二目标实体构建的实体对，获取所述第一目标实体对应的第一聚合特征以及所述第二目标实体对应的第二聚合特征；

所述提取模块830，还用于对所述第一聚合特征和所述第二聚合特征按照预设拼接结构进行拼接，得到拼接特征组；对所述拼接特征组进行概率预测，得到所述第一目标实体与所述第二目标实体之间，相对于候选关系的概率分布情况；基于所述概率分布情况，从所述候选关系中确定所述第一目标实体与所述第二目标实体之间的实体关系。

在一个可选的实施例中，所述确定模块820，还用于以所述目标实体在所述目标文档的语句中的分布情况，在处于同一语句的目标实体之间构建语句关联关系；将所述目标文档中每个语句对应的所述语句关联关系结合，得到所述目标实体之间的所述一跳关联关系。

综上所述，本申请实施例提供的文本内容的关系提取装置，在根据语句中实体分布情况得到实体之间的一跳关联关系之后，基于一跳关联关系分析得到多跳关联关系，从而在一跳关联关系和多跳关联关系的基础上进行实体关系的预测，由于实体特征由一跳和多跳关联关系共同确定，也即通过多跳关联关系整合了多个句子之间的信息，便于模型在实体关系分析时进行跨句推理，避免了一跳关联关系的局限性，提高了实体关系的预测的准确性。

需要说明的是：上述实施例提供的文本内容的关系提取装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本内容的关系提取装置与文本内容的关系提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲：

服务器1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。

大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的文本内容的关系提取方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的文本内容的关系提取方法。

本申请的实施例还提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的文本内容的关系提取方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本内容的关系提取方法，其特征在于，所述方法包括：

基于所述目标实体之间的所述一跳关联关系，确定与所述目标实体之间的一跳注意力矩阵，所述一跳注意力矩阵中的矩阵参数用于表示对应的目标实体之间的关联度；

对所述一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵作为多跳关联关系，所述多跳注意力矩阵中的参数用于表示在指定跳数范围内的所述目标实体之间的关联度；

2.根据权利要求1所述的方法，其特征在于，所述对所述一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵作为多跳关联关系，包括：

在所述指定跳数范围对应的幂次范围内，对所述一跳注意力矩阵进行幂次处理，得到所述多跳注意力矩阵。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述一跳关联关系和所述多跳关联关系提取所述目标文档中目标实体之间的所述实体关系，包括：

基于所述一跳关联关系和所述多跳关联关系确定所述目标实体的注意力特征；

基于所述注意力特征对所述目标实体进行特征分析，得到所述目标实体之间的实体关系。

4.根据权利要求3所述的方法，其特征在于，所述基于所述注意力特征对所述目标实体进行特征分析，得到所述目标实体之间的实体关系之前，还包括：

以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体的实体片段关联关系，所述实体片段关联关系用于指示处于同个语句的目标实体的实体片段之间的关联关系；

基于所述实体片段关联关系确定所述目标实体的片段特征；

所述基于所述一跳关联关系和所述多跳关联关系提取所述目标文档中目标实体之间的所述实体关系，包括：

对所述注意力特征和所述片段特征进行聚合，得到聚合特征；

基于所述聚合特征提取所述目标文档中目标实体之间的所述实体关系。

5.根据权利要求4所述的方法，其特征在于，所述以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体的实体片段关联关系，包括：

生成所述目标实体对应的实体片段，所述实体片段是对所述目标实体进行变形得到的片段；

在从同一目标实体变形得到的实体片段之间建立第一关联关系；

在处于同一语句的实体片段之间建立第二关联关系；

在所述实体片段与自身之间建立第三关联关系；

对所述第一关联关系、所述第二关联关系和所述第三关联关系进行结合，得到所述实体片段关联关系。

6.根据权利要求4所述的方法，其特征在于，所述对所述注意力特征和所述片段特征进行聚合，得到聚合特征，包括：

将所述目标实体对应的所述注意力特征和片段特征进行拼接，得到所述目标实体对应的聚合特征。

7.根据权利要求4所述的方法，其特征在于，所述目标实体中包括第一目标实体和第二目标实体；

所述基于所述聚合特征提取所述目标文档中目标实体之间的所述实体关系，包括：

针对所述第一目标实体和所述第二目标实体构建的实体对，获取所述第一目标实体对应的第一聚合特征以及所述第二目标实体对应的第二聚合特征；

对所述第一聚合特征和所述第二聚合特征按照预设拼接结构进行拼接，得到拼接特征组；

对所述拼接特征组进行概率预测，得到所述第一目标实体与所述第二目标实体之间，相对于候选关系的概率分布情况；

基于所述概率分布情况，从所述候选关系中确定所述第一目标实体与所述第二目标实体之间的实体关系。

8.根据权利要求1或2所述的方法，其特征在于，所述以所述目标实体在所述目标文档的语句中的分布情况，确定所述目标实体之间的一跳关联关系，包括：

以所述目标实体在所述目标文档的语句中的分布情况，在处于同一语句的目标实体之间构建语句关联关系；

将所述目标文档中每个语句对应的所述语句关联关系结合，得到所述目标实体之间的所述一跳关联关系。

9.一种文本内容的关系提取装置，其特征在于，所述装置包括：

所述确定模块，还用于基于所述目标实体之间的所述一跳关联关系，确定与所述目标实体之间的一跳注意力矩阵，所述一跳注意力矩阵中的矩阵参数用于表示对应的目标实体之间的关联度；对所述一跳注意力矩阵进行幂次处理，得到多跳注意力矩阵作为多跳关联关系，所述多跳注意力矩阵中的参数用于表示在指定跳数范围内的所述目标实体之间的关联度；

10.根据权利要求9所述的装置，其特征在于，所述确定模块，还用于在所述指定跳数范围对应的幂次范围内，对所述一跳注意力矩阵进行幂次处理，得到所述多跳注意力矩阵。

11.根据权利要求9或10所述的装置，其特征在于，所述确定模块，还用于基于所述一跳关联关系和所述多跳关联关系确定所述目标实体的注意力特征；

所述提取模块，还用于基于所述注意力特征对所述目标实体进行特征分析，得到所述目标实体之间的实体关系。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的文本内容的关系提取方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8任一所述的文本内容的关系提取方法。

14.一种计算机程序产品，其特征在于，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至8任一所述的文本内容的关系提取方法。