CN112287071A

CN112287071A - 一种文本关系提取方法、装置及电子设备

Info

Publication number: CN112287071A
Application number: CN202011282512.3A
Authority: CN
Inventors: 胡伟
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-01-29

Abstract

本说明书实施例提供一种文本关系提取方法、装置及电子设备。所述方法包括：获取一个或多个待处理的目标文本，其中，所述目标文本中包含待提取文本以及待提取文本之间的文本关系；利用预定的规则模板对所述目标文本进行检测，以便从所述目标文本中提取出若干个待提取文本；根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个所述待提取文本与所述标准文本库中各文本之间对应的相似度值；将相似度值大于指定阈值时的文本作为与之对应的待提取文本的标准文本，并根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系。

Description

一种文本关系提取方法、装置及电子设备

技术领域

本说明书涉及数据处理技术领域，尤其涉及一种文本关系提取方法、装置及电子设备。

背景技术

目前随着互联网及大数据技术的普及与发展，互联网平台中产生了大量的文本，有些文本内所包含的信息之间存在一定的关联关系，例如信息之间具有相互依据的关系。通过对文本进行探索将这些关系挖掘出来，有助于加深对文本内容的理解，能够从文本中挖掘出更有价值的信息，并通过这些信息来支撑业务需求。

现有技术在对文本信息之间的关联关系进行挖掘时，在提取文本中的信息之后，通过将提取出的信息与数据库中的信息进行比对，从而发现这些信息之间的关联关系。但是，由于文本质量并不统一，文本信息中往往存在一些异常情况(如异常字符等)，因此，通过信息比对进行挖掘的方式对文本质量的要求较高，容易遗漏掉一些关联关系，降低了文本信息间关联关系挖掘的准确率和效率。

基于现有技术，需要提供一种不依赖于文本质量，适用性更广，且能够准确、高效地对文本关系进行提取的方案。

发明内容

本说明书实施例提供一种文本关系提取方法、装置及电子设备，以解决现有技术存在的对文本质量要求高，对文本关系挖掘的准确率和效率低的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种文本关系提取方法，所述方法包括：

获取一个或多个待处理的目标文本，其中，所述目标文本中包含待提取文本以及待提取文本之间的文本关系；

利用预定的规则模板对所述目标文本进行检测，以便从所述目标文本中提取出若干个待提取文本；

根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个所述待提取文本与所述标准文本库中各文本之间对应的相似度值；

对于任一待提取文本和所述标准文本库中的任一文本，将大于指定阈值时的相似度值所对应的文本作为该待提取文本的标准文本，并根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系。

本说明书实施例提供的一种文本关系提取装置，所述装置包括：

获取模块，用于获取一个或多个待处理的目标文本，其中，所述目标文本中包含待提取文本以及待提取文本之间的文本关系；

检测模块，用于利用预定的规则模板对所述目标文本进行检测，以便从所述目标文本中提取出若干个待提取文本；

计算模块，用于根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个所述待提取文本与所述标准文本库中各文本之间对应的相似度值；

生成模块，用于对于任一待提取文本和所述标准文本库中的任一文本，将大于指定阈值时的相似度值所对应的文本作为该待提取文本的标准文本，并根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系。

本说明书实施例提供的一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种文本关系提取方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过获取一个或多个待处理的目标文本，其中，目标文本中包含待提取文本以及待提取文本之间的文本关系；利用预定的规则模板对目标文本进行检测，以便从目标文本中提取出若干个待提取文本；根据预定的文本相似度模型，将每个待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个待提取文本与标准文本库中各文本之间对应的相似度值；对于任一待提取文本和标准文本库中的任一文本，将大于指定阈值时的相似度值所对应的文本作为该待提取文本的标准文本，并根据待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成标准文本之间的文本关系。基于本方案，通过利用文本相似度模型来确定待提取文本与标准文本库中的文本之间的相似度，从而将相似度最高的文本作为待提取文本的标准文本，并生成标准文本之间的文本关系，这种方式不依赖于目标文本的质量，文本相似度模型的鲁棒性更强，从而能够推广到更多的文本关系提取场景，适用性更广，并且提升了文本关系提取的准确率和效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种账户关联方法的流程示意图；

图2为本说明书实施例提供的一种账户关联装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如前文所述，有些特定的文本内信息之间通常存在一定的关联关系，例如信息之间具有相互依据的关系，通过对文本进行探索将这些关系挖掘出来，有助于加深对文本内容的理解，能够从文本中挖掘出更有价值的信息，并通过这些信息来支撑业务需求。下面以法律法规文本为例，对信息之间的关联关系以及提取这些关系的重要意义进行详细介绍，具体包括以下内容：

法律法规在制定的时候，通常会在条款中明确说明该法规的制定依据了哪些其他的法规，此时便可以认为该法规与其依据的法规之间具有一种依据或者依赖关系，然而法规之间的这种依据关系对法规解析而言是非常重要的信息。例如，在建设法规知识库的过程中，经过对法规内容的探索，发现法规之间的依据关系对法规知识库的构建来说是一种非常重要的关系，因此需要将这些关系挖掘出来。

在实际场景中，由于法规的依据关系体现了法规之间的层次和等级关系，对于企业内部的合规业务人员来说，需要明确针对某一业务而言，该业务所依据的法规是如何相互约束的。因此合规人员在查阅法规的时候，通常需要频繁地查阅某个法规所依据的其他法规，想要知道针对某种业务，依据的法规是如何约束的，从而加深对法规业务的理解，以便于从法规中挖掘到有价值的东西，以便进一步基于从法规中挖掘到的合规价值点，在合规的前提下助力前线业务的发展。由此可见，在合规应用场景下，挖掘法律文本(以下也称法规文本)内法规之间的依赖关系是十分重要的环节。

下面结合具体实施例对现有技术中法规依据关系的挖掘过程以及可能存在的问题进行详细说明，以中国人民银行令〔2015〕第43号发布的《非银行支付机构网络支付业务管理办法》为例，在第一章总则的第一条中开宗明义的对本规定的立法依据进行了阐述，具体内容为“为规范非银行支付机构(以下简称支付机构)网络支付业务，防范支付风险，保护当事人合法权益，根据《中华人民共和国中国人民银行法》、《非金融机构支付服务管理办法》(中国人民银行令〔2010〕第2号发布)等规定，制定本办法。”通过该规定(即《非银行支付机构网络支付业务管理办法》)中记载的上述文本内容可知，在该规定的条款中明确写明了该规定所依据的两部法规，即《中华人民共和国中国人民银行法》和《非金融机构支付服务管理办法》，下面以该规定所公布的上述法律文本为例，对现有技术中的法规依据关系的提取和挖掘过程进行说明，具体包括以下步骤的内容：

第一步，直接通过书名号(《》)的方式提取上述法律文本中的法规名称，例如将包含书名号的以下法规名称进行提取：《非银行支付机构网络支付业务管理办法》、《中华人民共和国中国人民银行法》以及《非金融机构支付服务管理办法》；

第二步，将提取出来的上述法规名称直接与现有的法规名称进行逐一比对，找到完全匹配的法规名称，将找到的法规名称作为建立法规依据关系的法规名称。

基于现有技术中的方案可以看出，这种通过书名号提取法律文本中的法规名称并与现有法规名称进行对比的方式，将完全依赖于从法律文本中提取出的法规名称的准确性。但是，由于现实场景中，法律文本来源于网络内容，采购的大量法律和法规文本的数据质量通常是比较差的，例如法规文本中夹杂着一些异常字符或者存在错别字等情况，导致文本中的法规名称出现异常情形。那么此时直接通过名称对比的方式来确定法规之间的依据关系，就可能找不到与文本中法规名称相对应的法规，从而无法准确挖掘出这部分法规的依据关系，造成法规依据关系提取的遗漏，降低了法规依据关系提取的准确率，影响了法规依据关系提取的质量和效率。

针对上述现有技术中的问题，本方案利用设定的规则模板从法规文本中提取出依据的法规名称，由于提取出来的法规名称可能存在简写和错别字等异常情况，因此，本方案通过采用文本相似度模型计算提取出来的法规名称与法规库中的法规名称之间的相似度，从而准确找到法规名称之间的关联，并最终将确定的法规依据关系提取出来。本方案避免了由于法规名称出现异常导致无法准确提取出法规依据关系的情况，文本相似度模型的鲁棒性更强，适用性更广，对法规名称的查找也不依赖于法规文本的质量，因此能够推广到更多的法规依据关系的提取场景。

值得说明的是，本说明书以下实施例是以合规场景下针对法规文本的法规依据关系的提取为例进行展开分析的，因此，本说明书实施例中的目标文本可以指法规文本，标准文本库可以指法规库，标准文本可以指法规名称，标准文本之间的文本关系即法规之间的依据关系。但是在现实应用中，本说明书实施例所公开的技术方案不限于上述应用场景，所针对的目标文本也不限于法律领域的文本。

基于上述场景，下面对本说明书的方案进行详细说明。

图1为本说明书实施例提供的一种文本关系提取方法的流程示意图，该方法具体可以包括以下步骤：

在步骤S110中，获取一个或多个待处理的目标文本，其中，所述目标文本中包含待提取文本以及待提取文本之间的文本关系。

在本说明书一个或多个实施例中，所述目标文本为法规文本，因此，本说明书实施例是以法规文本作为处理对象，对法规文本中的法规名称之间的依据关系进行提取。其中，法规可以认为是国家机关制定的规范性文件，是法令、条例、规则和章程等法定文件的总称，违反相应的法规会受到相应的处罚；而法规依据关系是指一部法规在立法时所依据的其他法规，即一部法规在立法的时候，通常会参考一部或者多部法规，法规依据关系表达了法规之间的层次和等级关系。

在实际应用中，法规之间的依据关系可以包含以下方面的内容，一方面，一部法规所依据的法规一般情况下是更高阶的国家机构所颁布的法规，因此对下属部门颁布的法规具有指导作用。此时，法规之间的依据关系可以认为是不同法规之间的层级关系。另一方面，针对同一业务的不同法规来说，可以认为是针对同一种业务的约束，这些法规之间的关系可以认为是一种补充关系，即某一法规可能是对其依据法规的一种补充或者是更细则的规范。

在本说明书一具体实施例中，待处理的目标文本(即法规文本)可以是从互联网上获取的法规文本，例如通过互联网平台采集需要的法规文本，也可以是离线或线下大量采购的法规文本。采集或者采购的法规文本可以预先存储在平台数据库中。在实际应用中，法规文本既可以是包含了字符串或字段的文本，也可以是包含了图片信息的文本。

进一步地，在本说明书实施例中，在获取一个或多个待处理的目标文本之后，还可以对所述目标文本中不符合预定格式要求的目标文本执行格式转换操作，得到符合预定格式要求的目标文本。由于从互联网平台上所获取的法规文本的格式并不统一，因此，为了便于对法规文本进行处理，需要将法规文本的格式转换为预定格式(如txt格式文本)。

在步骤S120中，利用预定的规则模板对所述目标文本进行检测，以便从所述目标文本中提取出若干个待提取文本。

在本说明书一个或多个实施例中，在利用预定的规则模板对所述目标文本进行检测之前，还可以根据所述目标文本中待提取文本的特征信息，以及能够表达所述待提取文本之间的文本关系的特征信息来生成规则模板。以前述实施例中的法规文本为例，待提取文本为法规名称，而法规文本中的法规名称均具有书名号，因此可以将书名号作为法规名称的检测特征；另外，根据前述法规文本中所公布的内容来看，在法规公布的条款中明确写明了该规定所依据的法规，比如根据xxx规定制定本办法，因此可以将该特征作为法规名称之间依据关系的检测特征。下面通过一个具体实施例，对利用规则模板进行法规文本检测的方式进行说明，具体包括以下内容：

由于在法规的文本内容中，通常会明确说明该法规所依据的法规名称，因此利用生成的规则模板来提取出依据法规的名称，例如可以生成以下规则模板re.compile('《(.+？)》；利用该规则模板对法规文本进行检测时，可以将法规文本中具有书名号的语句提取出来，例如对前述实施例中的法规文本(《非银行支付机构网络支付业务管理办法》)进行检测后，可以提取出以下法规名称：《非银行支付机构网络支付业务管理办法》、《中华人民共和国中国人民银行法》以及《非金融机构支付服务管理办法》。

另外，在实际应用场景中，由于法规文本的内容可能存在不规范的情形，因此，在利用规则模板对法规文本中的法规名称进行提取时，还可能会提取出一些不规范的法规名称，例如提取出如下样式的法规名称“《中华人民共和国中国人民银行法、《非金融机构支付服务管理办法》”；此时，可以利用规则模板执行规则判断操作，对提取出来的不规范的法规名称进行拆解，比如将上述名称“《中华人民共和国中国人民银行法、《非金融机构支付服务管理办法》”拆解为“《中华人民共和国中国人民银行法》”和“《非金融机构支付服务管理办法》”。

在本说明书一个或多个实施例中，规则模板除了可以提取出符合预定格式要求的法规名称，并且可以通过规则判断对不规范的名称进行拆解之外，利用规则模板还可以检测出法规名称之间的依据关系，例如利用规则模板对法规文本检测后得到如下的依据关系：《非银行支付机构网络支付业务管理办法》是根据《中华人民共和国中国人民银行法》和《非金融机构支付服务管理办法》所制定的办法。

虽然可以通过规则模板提取出法规文本内的法规名称之间的依据关系，但是由于法规文本的质量可能较差，法规名称中可能存在异常字符、错别字或者简写等情况，因此，本说明书实施例将进一步基于提取出来的法规名称，利用文本相似度模型对其进行相似度计算，从而找到与异常名称之间相对应的标准名称，通过相似度计算确定的标准名称来生成最终的法规依据关系。以下将结合具体实施例对文本相似度计算的过程进行详细说明。

在步骤S130中，根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个所述待提取文本与所述标准文本库中各文本之间对应的相似度值。

在本说明书一个或多个实施例中，预定的文本相似度模型可以采用BERT文本相似度模型，BERT文本相似度模型是谷歌开源的一种深度学习与训练模型，基于这种模型可以进行多种算法任务，如文本分类、相似度计算等等。在实际应用中，除了采用BERT文本相似度模型之外，还可以采用CNN、RNN等神经网络模型来训练文本相似度模型，下面结合具体实施例对文本相似度模型的训练过程进行详细地说明，具体可以包括以下内容：

获取所述标准文本库中的文本以及待提取文本，对所述标准文本库中的文本和待提取文本分别执行分词操作，并利用删词法构建所述文本相似度模型训练的正样本；

将所述标准文本库中的文本与待提取文本进行随机组合生成所述文本相似度模型训练的负样本；将所述正样本和负样本组合成模型训练集，利用所述模型训练集对所述文本相似度模型执行训练操作。

具体地，本说明书实施例中，标准文本库可以认为是预先配置好的法规库，在法规库中预先配置好已有的法规，法规库中既可以存储法规名称，也可以保存相应法规的文本内容。由于法规库中存储的是已知的正确法规名称，因此，法规库中的法规名称也可以认为是标准的法规名称。模型相似度计算正是对从法规文本中提取出来的法规名称与法规库中的法规名称进行相似度匹配。

进一步地，本说明书实施例中，可以采用以下方式构建所述文本相似度模型的正样本，即通过确定执行分词操作后得到的文本和待提取文本，将分词后的文本或者待提取文本中的至少一个词汇进行随机删除，并将删除后的文本或者待提取文本与删除前所对应的文本或者待提取文本组成相似对，将所述相似对作为所述文本相似度模型训练的正样本。

在实际应用中，当利用删词法构建文本相似度模型训练的正样本时，将法规文本进行分词之后，将文本中的一个词随机删除，并将删除后的文本与原法规文本组成一个相似对，例如：提取出来的法规名称为“中华人民共和国中国人民银行法”，那么通过分词之后可以将文本中的“人民”两个字删除，并形成以下相似对，即“中华人民共和国中国银行法”对应“中华人民共和国中国人民银行法”。需要说明的是，除了可以采用删词法来构建模型训练的正样本之外，还可以利用其他方式来构造训练集，比如利用换词、字法构造等方式得到正样本。

进一步地，本说明书实施例中，可以采用以下方式构建所述文本相似度模型训练的负样本，即通过将所述标准文本库中的文本与待提取文本进行随机组合生成所述文本相似度模型训练的负样本，具体地，将所述标准文本库中的文本和所述待提取文本进行文本间的随机组合，得到多个组合后形成的句子对，将所述句子对作为所述文本相似度模型训练的负样本。

在本说明书一具体实施例中，例如从法规文本中提取出来的法规名称为“中华人民共和国中国银行法”，标准文本库(即法规库)中可以包含以下文本“中华人民共和国电信条例”和“互联网信息服务管理办法”，那么就可以将“中华人民共和国中国银行法”与中华人民共和国电信条例”和“互联网信息服务管理办法”分别进行组合，得到至少两个句子对，将这些组合成的句子对作为模型训练的负样本。

通过以上方法，可以快速构造出大量的训练集，并且不需要人工标注，有了训练集之后，就可以进一步利用模型训练集对所述文本相似度模型执行训练操作，并利用训练好的文本相似度模型进行相似度匹配。下面结合具体实施例对利用文本相似度模型进行法规名称之间的相似度计算的过程进行详细说明，具体可以包括以下内容：

根据训练的文本相似度模型，将每个待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，具体地，将每个所述待提取文本与标准文本库中的各个文本分别作为所述文本相似度模型的输入，利用所述文本相似度模型计算得到每个待提取文本与标准文本库中的各个文本之间的相似度值。

在实际应用中，将步骤S120所提取出来的法规名称与法规库中的各个法规名称作为两两组合输入到文本相似度模型中计算两两之间的相似度，例如：从法规文本中提取出来的法规名称包括法规A、法规B，而法规库中又包含了以下法规名称：法规C、法规D和法规E，那么就可以利用文本相似度模型分别计算法规A和C、A和D、A和E以及法规B和C、B和D、B和E之间的相似度，将相似度值大于指定阈值所对应的法规库中的法规名称作为该法规的标准名称；其中，利用模型算法求解得到的两个文本之间的相似度值，可以是0-1之间的数值，相似度值越接近1代表两个文本之间越相似。

通过上述实施例，将计算得到的每个相似度值与预设的相似度阈值进行比较，判断哪个文本(即法规库中的法规名称)与提取出来的法规名称更加贴合，从而进一步保存法规之间的依据关系。通过利用相似度模型求解法规之间的关联关系，可以解决因法规名称中出现异常字符、错别字或简写等导致的法规名称与法规库中的标准名称匹配不到的情况，从而提高了法规依据关系提取的准确率。

在步骤S140中，对于任一待提取文本和所述标准文本库中的任一文本，将大于指定阈值时的相似度值所对应的文本作为该待提取文本的标准文本，并根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系。

在本说明书一个或多个实施例中，在利用文本相似度模型判断被提取出来的法规名称所对应的标准名称之后，结合前述实施例中预先确定的法规名称之间的依据关系，将所述文本关系中包含的待提取文本替换为对应的标准文本，从而生成与所述目标文本相关的标准文本之间的文本关系。

进一步地，本说明书实施例还提供了一种对提取出来的文本关系进行查询的方法，在根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系之后，还可以将标准文本之间的文本关系存储在预先配置的文本关系表中，所述文本关系表用于保存所述标准文本对应的文本标识之间的映射关系；当对数据库中的文本关系表进行查询时，采用递归查询方式，利用输入的文本标识查询与该文本标识具有直接或间接映射关系的其他文本标识。

在实际应用中，在基于文本关系表对法规依据关系进行查询时，可以通过在查询页面中给定一个法规id，系统自动根据该法规id向数据库中的文本关系表执行查询操作，从而查询出该法规所依据的法规以及依据该法规的其他法规。在进行递归查询时，可以采取上钻或者下钻的方式进行依据关系的查询，例如对法规A进行依据关系的查询时，发现该法规A依据了法规B，而通过下钻查询进一步发现法规B又依据了法规C，通过这种上钻或下钻的查询方式可以将直接或者间接相关的所有法规查询出来，并展示给合规人员。

通过本方案以上实施例的内容，当法规名称中出现异常情况，而无法直接通过名称对比的方式获取法规之间的依据关系时，通过采用文本相似度模型计算法规名称与标准法规名之间的文本相似度，进而确定法规之间的依据关系。通过这种鲁棒性更强的文本相似度模型来提取依据关系，不依赖于法规文本的质量，能够推广到更多的法规场景，适用性更加广泛，利用挖掘出来的法规之间的依据关系，可以更好地进行底层数据沉淀，支撑业务需求。

基于同样的思路，本说明书实施例还提供了一种文本关系提取装置，如图2为本说明书实施例提供的一种文本关系提取装置的结构示意图，该装置200主要包括：

获取模块201，用于获取一个或多个待处理的目标文本，其中，所述目标文本中包含待提取文本以及待提取文本之间的文本关系；

检测模块202，用于利用预定的规则模板对所述目标文本进行检测，以便从所述目标文本中提取出若干个待提取文本；

计算模块203，用于根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，得到每个所述待提取文本与所述标准文本库中各文本之间对应的相似度值；

生成模块204，用于对于任一待提取文本和所述标准文本库中的任一文本，将大于指定阈值时的相似度值所对应的文本作为该待提取文本的标准文本，并根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系。

进一步地，所述获取模块201还用于：

在所述获取一个或多个待处理的目标文本之后，对所述目标文本中不符合预定格式要求的目标文本执行格式转换操作，得到符合预定格式要求的目标文本。

进一步地，所述检测模块202还用于：

在所述利用预定的规则模板对所述目标文本进行检测之前，根据所述目标文本中待提取文本的特征信息，以及能够表达所述待提取文本之间的文本关系的特征信息来生成规则模板。

进一步地，所述计算模块203还用于训练所述文本相似度模型，具体地：

进一步地，所述计算模块203还用于：

确定执行分词操作后得到的文本和待提取文本，将分词后的文本或者待提取文本中的至少一个词汇进行随机删除，并将删除后的文本或者待提取文本与删除前所对应的文本或者待提取文本组成相似对，将所述相似对作为所述文本相似度模型训练的正样本。

进一步地，所述计算模块203还用于：

将所述标准文本库中的文本和所述待提取文本进行文本间的随机组合，得到多个组合后形成的句子对，将所述句子对作为所述文本相似度模型训练的负样本。

进一步地，所述计算模块203还用于：

将每个所述待提取文本与标准文本库中的各个文本分别作为所述文本相似度模型的输入，利用所述文本相似度模型计算得到每个待提取文本与标准文本库中的各个文本之间的相似度值。

进一步地，所述生成模块204还用于：

根据预先确定的待提取文本之间的文本关系，将所述文本关系中包含的待提取文本替换为对应的标准文本，从而生成与所述目标文本相关的标准文本之间的文本关系。

进一步地，所述装置还包括：

查询模块205，用于在所述根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系之后，将所述标准文本之间的文本关系存储在预先配置的文本关系表中，所述文本关系表用于保存所述标准文本对应的文本标识之间的映射关系；当对数据库中的文本关系表进行查询时，采用递归查询方式，利用输入的文本标识查询与该文本标识具有直接或间接映射关系的其他文本标识。

本说明书实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述一种文本关系提取方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本关系提取方法，所述方法包括：

2.如权利要求1所述的方法，在所述获取一个或多个待处理的目标文本之后，还包括：

对所述目标文本中不符合预定格式要求的目标文本执行格式转换操作，得到符合预定格式要求的目标文本。

3.如权利要求1所述的方法，在所述利用预定的规则模板对所述目标文本进行检测之前，还包括：

根据所述目标文本中待提取文本的特征信息，以及能够表达所述待提取文本之间的文本关系的特征信息来生成规则模板。

4.如权利要求1所述的方法，还包括训练所述文本相似度模型，具体地：

5.如权利要求4所述的方法，所述利用删词法构建所述文本相似度模型的正样本，包括：

6.如权利要求4所述的方法，所述将所述标准文本库中的文本与待提取文本进行随机组合生成所述文本相似度模型训练的负样本，包括：

7.如权利要求1所述的方法，所述根据预定的文本相似度模型，将每个所述待提取文本与预设的标准文本库中的各个文本分别进行相似度计算，包括：

8.如权利要求1所述的方法，所述根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系，包括：

9.如权利要求1所述的方法，在所述根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系之后，还包括：

将所述标准文本之间的文本关系存储在预先配置的文本关系表中，所述文本关系表用于保存所述标准文本对应的文本标识之间的映射关系；

当对数据库中的文本关系表进行查询时，采用递归查询方式，利用输入的文本标识查询与该文本标识具有直接或间接映射关系的其他文本标识。

10.如权利要求1-9中任一项所述的方法，所述目标文本为法规文本，所述标准文本库为法规库，所述标准文本为法规名称，所述标准文本之间的文本关系包括法规之间的依据关系。

11.一种文本关系提取装置，所述装置包括：

12.如权利要求11所述的装置，所述获取模块还用于：

13.如权利要求11所述的装置，所述检测模块还用于：

14.如权利要求11所述的装置，所述计算模块还用于训练所述文本相似度模型，具体地：

15.如权利要求14所述的装置，所述计算模块还用于：

16.如权利要求14所述的装置，所述计算模块还用于：

17.如权利要求11所述的装置，所述计算模块还用于：

18.如权利要求11所述的装置，所述生成模块还用于：

19.如权利要求18所述的装置，还包括：

查询模块，用于在所述根据所述待提取文本之间的文本关系以及各待提取文本对应的标准文本，生成所述标准文本之间的文本关系之后，将所述标准文本之间的文本关系存储在预先配置的文本关系表中，所述文本关系表用于保存所述标准文本对应的文本标识之间的映射关系；当对数据库中的文本关系表进行查询时，采用递归查询方式，利用输入的文本标识查询与该文本标识具有直接或间接映射关系的其他文本标识。

20.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至10中任一项所述的方法。