CN112906368B

CN112906368B - 行业文本增量方法、相关装置及计算机程序产品

Info

Publication number: CN112906368B
Application number: CN202110189733.4A
Authority: CN
Inventors: 方舟; 史亚冰; 蒋烨; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-09-02
Anticipated expiration: 2041-02-19
Also published as: EP3920074A2; CN112906368A; KR102608867B1; US20220027766A1; KR20210125449A; JP2022003544A; EP3920074A3; JP7291181B2

Abstract

本申请实施例公开了行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域。该方法的一具体实施方式包括：获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；利用远监督对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，预设第二数量级不小于预设第一数量级。通过应用该实施方式可通过远监督方法来帮助低资源的目标行业文本实现较好的样本增量。

Description

行业文本增量方法、相关装置及计算机程序产品

技术领域

本申请涉及数据处理技术领域，具体涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域，尤其涉及行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

信息抽取技术可以用于辅助行业中的智能问答、智能客服等依赖信息处理与信息检索的需求。得益于人工智能与深度学习技术的发展，信息抽取等自然语言处理相关技术近些年出现了突飞猛进的发展。与传统机器学习模型有所区别，深度学习模型不需要依赖人工定义的高级特征。只需要通过基础特征、设计适合的深度学习模型结构以及在大规模的标注数据上进行训练，信息抽取任务就可以取得很高的准确率与召回率。

常规依赖深度学习模型的方案往往需要大量的标准数据进行模型训练，而行业语料标注成本较高，对于低资源的情景很难有好的抽取效果。

发明内容

本申请实施例提出了一种行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本申请实施例提出了一种行业文本增量方法，包括：获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；利用包括远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，预设第二数量级不小于预设第一数量级。

第二方面，本申请实施例提出了一种行业文本增量装置，包括：获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；利用包括远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，预设第二数量级不小于预设第一数量级。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。

第五方面，本申请实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的行业文本增量方法。

本申请实施例提供的行业文本增量方法、装置、电子设备、计算机可读存储介质及计算机程序产品，首先，获取目标行业领域下存量低于预设第一数量级的原始行业文本，行业文本指用于描述相应行业领域下的专属对象的文本内容；然后，利用包括远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本，该预设第二数量级不小于该预设第一数量级。

针对原始行业文本的存量低于预设第一数量级的目标行业领域，本申请通过远监督方法来实现样本增量，远监督方法能够根据原始行业文本中各名词之前的关联在其它行业领域或公开语料库中找到符合要求的新文本作为增量文本，进而实现样本量级的扩充，进而使得在样本增量技术的帮助下低资源的目标行业文本也能够训练出精度满足要求的用于精准提取主谓宾三元组的模型。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2为本申请实施例提供的一种行业文本增量方法的流程图；

图3为本申请实施例提供的另一种行业文本增量方法的流程图；

图4为本申请实施例提供的一种主谓宾三元组提取方法的流程图；

图5为本申请实施例提供的在一应用场景下的行业文本增量方法的流程示意图；

图6为本申请实施例提供的一种行业文本增量装置的结构框图；

图7为本申请实施例提供的一种适用于执行行业文本增量方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1示出了可以应用本申请的行业文本增量方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如样本增量类应用、文本处理类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以为低资源的行业文本提供样本增量服务的样本增量类应用为例，服务器105在运行该样本增量类应用时可实现如下效果：首先，通过网络104接收来自终端设备101、102、103分享的目标行业领域下存量低于预设第一数量级的原始行业文本，行业文本指用于描述相应行业领域下的专属对象的文本内容；然后，利用包括远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本，该预设第二数量级不小于该预设第一数量级。

进一步的，服务器105在通过上述样本增量类应用完成样本增量任务后，还可以通过文本处理类应用基于增量后行业文本训练出用于从待处理文本中精准提取出主谓宾三元组的模型。

需要指出的是，目标行业领域下存量低于预设第一数量级的原始行业文本除可以从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理样本增量任务)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括终端设备101、102、103和网络104。

由于样本增量需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的行业文本增量方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，行业文本增量装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力和运算资源时，终端设备101、102、103也可以通过其上安装的样本增量类应用完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下，但样本增量类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时，可以让终端设备来执行上述运算，从而适当减轻服务器105的运算压力，相应的，行业文本增量装置也可以设置于终端设备101、102、103中。在此种情况下，示例性系统架构100也可以不包括服务器105和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本申请实施例提供的一种行业文本增量方法的流程图，其中流程200包括以下步骤：

步骤201：获取目标行业领域下存量低于预设第一数量级的原始行业文本；

本步骤旨在由行业文本增量方法的执行主体(例如图1所示的服务器105)获取目标行业领域下存量低于预设第一数量级的原始行业文本。

其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；预设第一数量级作为预设的临界值，用于将实际量级小于其的行业文本所属的行业领域确定为低资源的行业领域，低资源的行业领域指该行业领域下当前存量的原始行业文本的数量级无法基于常规方式训练出精度满足要求的模型。训练好的模型可用于从实际的行业文本中进行识别实体、主谓宾三元组的提取、语义分析等实际任务。

步骤202：利用包括远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本。

在步骤201的基础上，本步骤旨在由上述执行主体采用远监督方法作为样本增量的方式，对数量级不满足要求的原始行业文本进行样本增量，进而最终得到存量满足要求的增量后行业文本。

具体的，本申请中原存量小于预设第一数量级表示不满足要求，增量处理后存量大于预设第二数量级表示满足要求，即预设第一数量级与预设第二数量级之间的大小关系为该预设第二数量级不小于该预设第一数量级，即最小的预设第二数量级应与预设第一数量级相同，此时的预设第一数量级将同时作为存量满足要求和不满足的临界值。

为了能够使得网络上的自然语言信息变成方便分析、处理的结构化形式，研究者提出了不同的关系抽取方法。关系抽取是指从文本内容中检测实体之间的明确或者不明确的关系，并且把它们分类。从机器学习的样本获取角度看，主要有3类方法用来从文本中抽取关系事实：全监督学习、半监督学习和无监督学习。其中，全监督学习是指通过人工标注初始的样本数据,然后利用标记过的数据训练分类器，最后用训练好的分类器去识别一个新句子中是否有某两个实体存在某种给定的关系，全监督的学习方法主要包括基于特征的方法和核方法；半监督学习则是指使用一个非常小的数据种子实例或者模式做引导学习，在大量的文本里面抽取一些新模式，然后再用这些模式抽取新的实例，新实例再去抽取更新的模式，周而复始最终得到数据；无监督学习则不需要初始数据集，从大量的文本中抽取介于两个实体之间的字符串，然后对那些字符串进行聚集和简化，得到关系字符串。

随着大数据时代的到来，关系抽取任务面临的适用领域更加开放和复杂。面对海量和异构数据，研究者提出了远监督方法。该方法通过启发式地对齐待抽取关系与自然语句，从而完成关系抽取。本申请在此原理的基础上进一步利用其特性，将其运用在为低资源样本进行样本增量方面。进行样本增量的原理可以参见以抽取关系/location(地点)/country(国家)/capital(首都)为例的例子：在知识库中有实例(A,B)，若在文本集中有句子“A is the capital of B(A是B的首都)...”，运用远监督方法系统就会自动地将它们相匹配，形成一个训练实例:{capital(A,B),A is the capital of B,...}。进而使得可以该训练实例将与实例(A,B)类似的其它实例形成新的句子。

具体的，样本增量方法除上述重点描述的远监督方式之外，还可以包含有采用其它技术原理实现类似效果的其它方式，例如同义词替换法、回译法、随机生成法等，可视实际应用场景下的需求自行选择是否在已采用远监督方法的基础上进行增添，此处不做具体限定。

针对原始行业文本的存量低于预设第一数量级的目标行业领域，本申请实施例提供的行业文本增量方法提供了利用远监督方法来实现样本增量，远监督方法能够根据原始行业文本中各名词之前的关联在其它行业领域或公开语料库中找到符合要求的新文本作为增量文本，进而实现样本量级的扩充，进而使得在样本增量技术的帮助下低资源的目标行业文本也能够训练出精度满足要求的用于精准提取主谓宾三元组的模型。

请参考图3，图3为本申请实施例提供的另一种行业文本增量方法的流程图，其中流程300包括以下步骤：

步骤301：获取目标行业领域下存量低于预设第一数量级的原始行业文本；

本步骤与如图2所示的步骤201一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述

步骤302：利用远监督方法对原始行业文本进行首次样本增量处理，得到初次增量行业文本；

一种包括且不限于的采用远监督的方式来生成增量行业文本的方式可以为：

首先，从目标行业领域的原始行业文本中提取出初始主谓宾三元组；然后，在非目标行业领域的其它行业文本和公开语料库中，将存在初始主谓宾三元组中的主语和谓语的文本确定为目标文本；最后，将目标文本作为原始行业文本经远监督后的增量行业文本。

步骤303：采用主宾替换法和/或回译法分别对原始行业文本和初次增量行业文本进行样本增量处理，得到二次增量行业文本；

其中，主宾替换法指在保持由主谓宾三元组中谓语所提供的中宾关系下将原始的主语和宾语替换为新的主语和宾语。为加深理解，请参见下述例子：

通过对已标注的训练数据的统计得到了同类别的主语(Subject，缩写S-Predication)词典和宾语(Object，缩写O)词典，以船舶行业文本为例可得到如下词典：船舶：M1、M2、M3……；产国：A1、A2、A3……。据此通过主语(S)和宾语(O)的随机替换可以生成多条新样本，例如：

原样本：M1是A1的大型商用货船，其满载排水量远超其它(S：M1 P：产国 O：A1)；

新生成样本：M2是A2的大型商用货船，其满载排水量远超其它(S:M2 P：产国 O：A2)。

回译法则是把一个句子进行翻译再翻译，例如中文-英文-中文，那么就可以得到一条新的表达稍有不同的样本，即主要通过句子在不同语言之间翻译过程中存在的略微失真，来生成与原句意思相同或表述不同的新句子作为样本。

步骤304：去除初次增量行业文本和二次增量行业文本中的内容错误文本、逻辑错误文本以及重复文本，得到存量大于预设第二数量级的增量后行业文本；

在步骤302的基础上，由于无论是主宾替换法、回译法还是远监督方法，都有可能导致增量生成的新样本存在各种错误，尤其是在远监督基础上进行的二次增量操作。因此本步骤旨在由上述执行主体通过去除初次增量行业文本和二次增量行业文本中的内容错误文本、逻辑错误文本以及重复文本，以得到尽可能可用的增量后行业文本。

进一步的，若经内容错误文本、逻辑错误文本以及重复文本去除后的增量后行业文本的存量不大于预设第二数量级，还可以基于处理后的增量后行业文本再次按照上述增量方法进行增量处理，直至使得存量大于预设第二数量级。当然，若后续在增量后行业文本的基础上再次进行增量处理，应当进行更加严格的检查，以通过保持样本有效性的原则保证后续训练出的模型的可靠性。

步骤305：基于增量后行业文本训练得到语言模型；

在步骤304的基础上，本步骤旨在通过将增量后行业文本作为训练样本，对初始的语言模型进行训练，以最终得到训练后的语言模型。

具体的，根据具体的需求不同，可选用具有不同特性的语言模型框架作为初始的语言模型参与训练，激活函数和损失函数也可以根据实际的语料特性和需求特性自行调整，此处不做具体限定。

步骤306：利用训练后的语言模型从实际行业文本中抽取出主谓宾三元组。

在步骤305的基础上，本步骤旨在由上述执行主体利用训练后的语言模型从实际行业文本中抽取出主谓宾三元组。应当理解的是，主谓宾三元组(英文缩写为SPO三元组)的抽取通常是以句子为单位，即一个句子应当能够抽取出一个SPO三元组，而从该句子抽取出的SPO三元组通常作为将作为这个句子所要表达内容的核心存在，能够简明扼要的表达出关键内容，能够通过此种方式去除其它因素的影响，同时也便于直接通过体现在SPO三元组中的对应关系对行业文本的内容进行各种结构化处理。

区别于上一实施例，本实施例不仅通过步骤302-步骤303给出了一种具体的样本增量以及对增量后样本进行处理的方式，以通过尽可能多的方式、尽可能快的得到足够多且有效的增量后样本；还通过步骤304-步骤305给出了一种利用增量后样本训练模型，以及用训练后的模型实现对行业文本的SPO三元组抽取的方案，以使方案尽可能的落地，在具体的应用场景发挥实际效果：提升SPO三元组的提取准确性。

在上一实施例中，给出了基于增量后行业文本对语言模型进行训练的方案，除作为训练样本的是经过增量处理后的增量后行业文本外，在模型训练阶段采用了常规方式。但考虑到常规方式本是为真实样本数量满足数量级要求而设计的，因此常规的训练方式不一定能够直接对经增量处理后的增量后行业文本起到相同程度的效果(即通常指模型精度)。因此，本申请针对包含有复杂嵌套关系的实际行业文本的现状，通过图4给出了一种更适合此种低资源样本情况的模型训练和SPO三元组提取方案，其流程400包括以下步骤：

步骤401：将待处理行业文本输入训练后的语言模型，得到输出的包含上下文语境特征的文本向量；

在本实施例中，基于增量后行业文本训练出的语言模型的作用为：表征待处理行业文本与包含上下文语境特征的文本向量之间的关系，因此训练后的语言模型将能够输出包含上下文语境特征的文本向量。

步骤402：利用预设的多指针模型从文本向量中抽取出的第一结果；

该多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系。

步骤403：利用预设的预测子模型从文本向量中预测出第二结果；

其中，预测子模型用于根据已标注有的标签类别预测待处理行业文本中包含的谓语类别数、主谓宾三元组数以及实体类型中的至少一项。

步骤404：基于预设的模型加权系数对第一结果和第二结果进行加权，并从加权后得到的综合结果中提取出主谓宾三元组。

本实施例通过步骤401-步骤404提供的技术方案，在常规适配存在复杂嵌套关系的行业文本关系对所使用的多指针模型的基础上，还增设了预设子模型，以便于结合其对包含的谓语类别数、主谓宾三元组数以及实体类型中至少一项的预测，对多指针模型的结果进行综合，而综合的过程实质上也就是相互验证、提升准确性的过程，进而使得从综合结果中提取出的主谓宾三元组更加准确。

在上述几个提供了提取出主谓宾三元组的技术方案的实施例基础上，还可以根据提取出的主谓宾三元组构建目标行业领域的知识图谱，以满足后续基于知识图谱的知识查询、智能问答等需求。例如：响应于接收到知识查询请求，根据知识查询请求确定所属的实际行业领域；调用实际行业领域的知识图谱查询并反馈知识查询请求对应的目标知识。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案，请参见如图5所示的示意图：

1)服务器接收到“X号于1899年1月24日由Y国的Z公司开工建造”的待处理行业文本(可知该行业为船舶制造行业)；

2)服务器在输入层为该待处理行业文本的开头补充「CLS」(Class，种类)用来表征分类特征；

3)服务器将处理后的待处理行业文本输入预训练的语言模型(等效于如图4实施例示出的语言模型)，得到输出的文本向量；

图5中具体使用了ERNIE预训练语言模型和参数，该模型会将输入的待处理行业文本转换为包含了上下文语境特征的文本向量。这里主要使用transformer(变换)单元，该模型中可以有多层的transformer单元，每一层的每一个transformer单元对应了输入中的一个单元，同一层内的transformer单元不互相连接，不同层之间的transformer单元两两连接(图中只示意性的展示了两层tranformer的连接情况)。

4)服务器将输出的文本向量输入预训练的多指针模型(等效于如图4所示的多指针模型)，输出嵌套的各层关系对的起止位置；

根据预先定义的schema(约束)将生成总数为2(M+N)个的分类器，其中，M为stype-p(可等效理解为首层关系对)对的数量，其中每一个stype-p对应了两个分类器，分别用来学习符合stype-p约束的实体开始位置和结束位置；同样，每一个otype-p(可等效理解为第二层关系对)也对应了两个分类器，分别用来学习符合otype-p约束的属性值的起止位置。如图5所示，例如第1个分类器可表示船舶-制造商的实体在文本中的第一个token为开始位置，第2个分类器可表示舰船舶-制造商的实体在文本中的第三个token为结束位置。第k个分类器可表示制造商-组织机构的值在文本中的第18个token为开始位置，第k+1个分类器可表示制造商-组织机构的值在文本中的第25个token为结束位置。

5)多指针模型得到预测得到的起止位置，将与起止位置对应的文本抽取并拼接，最终输出。

根据上一层预测得到的起止位置，组合拼接为最终的实体-属性-属性值输出。如上述示例，已经预测得到船舶-制造商的位置为1-3，制造商-组织机构的位置为18-25，那么可以得到最终的实体-属性输出：X号-制造商-Z公司。

最终，通过上述步骤可从输入的“X号于1899年1月24日由Y国的Z公司开工建造”短文本序列中共提取出“X号-制造商-Z公司”、“X号-产国-Y国”、“X-建造时间-1899年1月24日”三个不同的主谓宾三元组；

6)同时，主要部分为Softmax函数的多分类模型(等效于图4中的预测子模型)将用于预测输入的待处理行业文本中包含了多少种谓语(Predication，缩写为P)关系，最终得到结果为“3”。两相印证可知，预测结果与实际提取出的SPO三元组的实际情况一致。

进一步的，上述提取出的主谓宾三元组将可以加入“船舶制造”这一行业的知识图谱，并进一步满足用户发起的智能问答，例如当用户发起的查询问题为“X号是哪个国家制造的？”时，通过上述知识图谱中记载的知识，将可以直接将其返回“Y国”的答案。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种行业文本增量装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的行业文本增量装置600可以包括：低资源行业文本获取单元601、样本增量方法602。其中，低资源行业文本获取单元601，被配置成获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；样本增量方法602，被配置成利用远监督方法对原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，预设第二数量级不小于预设第一数量级。

在本实施例中，行业文本增量装置600中：低资源行业文本获取单元601、样本增量方法602的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-202的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，样本增量单元602可以包括被配置成利用远监督方法对原始行业文本进行样本增量处理的远监督增量子单元，该远监督增量子单元可以被进一步配置成：

从目标行业领域的原始行业文本中提取出初始主谓宾三元组；

在非目标行业领域的其它行业文本和公开语料库中，将存在初始主谓宾三元组中的主语和谓语的文本确定为目标文本；

将目标文本作为原始行业文本经远监督后的增量行业文本。

在本实施例的一些可选的实现方式中，样本增量单元602可以被进一步配置成：

利用远监督方法对原始行业文本进行首次样本增量处理，得到初次增量行业文本；

采用主宾替换法和/或回译法分别对原始行业文本和初次增量行业文本进行样本增量处理，得到二次增量行业文本；其中，主宾替换法指在保持由主谓宾三元组中谓语所提供的中宾关系下将原始的主语和宾语替换为新的主语和宾语；

去除初次增量行业文本和二次增量行业文本中的内容错误文本、逻辑错误文本以及重复文本，得到存量大于预设第二数量级的增量后行业文本。

在本实施例的一些可选的实现方式中，行业文本增量装置600还可以包括：

语言模型训练单元，被配置成基于增量后行业文本训练得到语言模型；

主谓宾三元组抽取单元，被配置成利用训练后的语言模型从实际行业文本中抽取出主谓宾三元组。

在本实施例的一些可选的实现方式中，该主谓宾三元组抽取单元可以被配置成：

将待处理行业文本输入训练后的语言模型，得到输出的包含上下文语境特征的文本向量；

利用预设的多指针模型从文本向量中抽取出的第一结果；其中，多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；

利用预设的预测子模型从文本向量中预测出第二结果；其中，预测子模型用于根据已标注有的标签类别预测待处理行业文本中包含的谓语类别数、主谓宾三元组数以及实体类型中的至少一项；

基于预设的模型加权系数对第一结果和第二结果进行加权，并从加权后得到的综合结果中提取出主谓宾三元组。

知识图谱构建单元，被配置成根据提取出的主谓宾三元组构建目标行业领域的知识图谱。

实际行业领域确定单元，被配置成响应于接收到知识查询请求，根据知识查询请求确定所属的实际行业领域；

基于知识图谱的查询及反馈单元，被配置成调用实际行业领域的知识图谱查询并反馈知识查询请求对应的目标知识。

本实施例作为对应于上述方法实施例的装置实施例存在，针对原始行业文本的存量低于预设第一数量级的目标行业领域，本申请实施例提供的行业文本增量装置利用远监督方法来实现样本增量，远监督方法能够根据原始行业文本中各名词之前的关联在其它行业领域或公开语料库中找到符合要求的新文本作为增量文本，进而实现样本量级的扩充，进而使得在样本增量技术的帮助下低资源的目标行业文本也能够训练出精度满足要求的用于精准提取主谓宾三元组的模型。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元707，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如行业文本增量方法。例如，在一些实施例中，行业文本增量方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的行业文本增量方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行行业文本增量方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

针对原始行业文本的存量低于预设第一数量级的目标行业领域，本申请实施例利用远监督方法实现样本增量，远监督方法能够根据原始行业文本中各名词之前的关联在其它行业领域或公开语料库中找到符合要求的新文本作为增量文本，进而实现样本量级的扩充，进而使得在样本增量技术的帮助下低资源的目标行业文本也能够训练出精度满足要求的用于精准提取主谓宾三元组的模型。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种行业文本增量方法，包括：

获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；

利用远监督方法对所述原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，所述预设第二数量级不小于所述预设第一数量级；

其中，所述利用远监督方法对所述原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本，包括：

利用远监督方法对所述原始行业文本进行首次样本增量处理，得到初次增量行业文本；

采用主宾替换法和/或回译法分别对所述原始行业文本和所述初次增量行业文本进行样本增量处理，得到二次增量行业文本；其中，所述主宾替换法指在保持由主谓宾三元组中谓语所提供的主宾关系下将原始的主语和宾语替换为新的主语和宾语；

去除所述初次增量行业文本和所述二次增量行业文本中的内容错误文本、逻辑错误文本以及重复文本，得到存量大于所述预设第二数量级的增量后行业文本；

还包括：响应于去除所述内容错误文本、逻辑错误文本以及重复文本后得到的实际行业文本的数量级仍小于所述预设第二数量级，利用所述远监督方法、所述主宾替换法和/或所述回译法继续对所述实际行业文本进行样本增量处理，直至得到存量大于所述预设第二数量级的增量后行业文本。

2.根据权利要求1所述的方法，其中，所述利用远监督方法对所述原始行业文本进行样本增量处理，包括：

从所述目标行业领域的原始行业文本中提取出初始主谓宾三元组；

在非所述目标行业领域的其它行业文本和公开语料库中，将存在所述初始主谓宾三元组中的主语和谓语的文本确定为目标文本；

将所述目标文本作为所述原始行业文本经远监督后的增量行业文本。

3.根据权利要求1-2任一项所述的方法，还包括：

基于所述增量后行业文本训练得到语言模型；

利用训练后的语言模型从实际行业文本中抽取出主谓宾三元组。

4.根据权利要求3所述的方法，其中，所述利用训练后的语言模型从实际行业文本中抽取出主谓宾三元组，包括：

利用预设的多指针模型从所述文本向量中抽取出的第一结果；其中，所述多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系；

利用预设的预测子模型从所述文本向量中预测出第二结果；其中，所述预测子模型用于根据已标注有的标签类别预测所述待处理行业文本中包含的谓语类别数、主谓宾三元组数以及实体类型中的至少一项；

基于预设的模型加权系数对所述第一结果和第二结果进行加权，并从加权后得到的综合结果中提取出所述主谓宾三元组。

5.根据权利要求4所述的方法，还包括：

根据提取出的主谓宾三元组构建所述目标行业领域的知识图谱。

6.根据权利要求5所述的方法，还包括：

响应于接收到知识查询请求，根据所述知识查询请求确定所属的实际行业领域；

调用所述实际行业领域的知识图谱查询并反馈所述知识查询请求对应的目标知识。

7.一种行业文本增量装置，包括：

低资源行业文本获取单元，被配置成获取目标行业领域下存量低于预设第一数量级的原始行业文本；其中，行业文本指用于描述相应行业领域下的专属对象的文本内容；

样本增量单元，被配置成利用远监督方法对所述原始行业文本进行样本增量处理，得到存量大于预设第二数量级的增量后行业文本；其中，所述预设第二数量级不小于所述预设第一数量级；

所述样本增量单元被进一步配置成：

多次增量单元，被配置成响应于去除所述内容错误文本、逻辑错误文本以及重复文本后得到的实际行业文本的数量级仍小于所述预设第二数量级，利用所述远监督方法、所述主宾替换法和/或所述回译法继续对所述实际行业文本进行样本增量处理，直至得到存量大于所述预设第二数量级的增量后行业文本。

8.根据权利要求7所述的装置，其中，所述样本增量单元包括被配置成利用远监督方法对所述原始行业文本进行样本增量处理的远监督增量子单元，所述远监督增量子单元被进一步配置成：

9.根据权利要求7-8任一项所述的装置，还包括：

语言模型训练单元，被配置成基于所述增量后行业文本训练得到语言模型；

10.根据权利要求9所述的装置，其中，所述主谓宾三元组抽取单元被配置成：

11.根据权利要求10所述的装置，还包括：

知识图谱构建单元，被配置成根据提取出的主谓宾三元组构建所述目标行业领域的知识图谱。

12.根据权利要求11所述的装置，还包括：

实际行业领域确定单元，被配置成响应于接收到知识查询请求，根据所述知识查询请求确定所属的实际行业领域；

基于知识图谱的查询及反馈单元，被配置成调用所述实际行业领域的知识图谱查询并反馈所述知识查询请求对应的目标知识。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的行业文本增量方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的行业文本增量方法。