CN113051926B

CN113051926B - 文本抽取方法、设备和存储介质

Info

Publication number: CN113051926B
Application number: CN202110227045.2A
Authority: CN
Inventors: 章玥; 方舟; 史亚冰; 蒋烨; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2023-06-23
Anticipated expiration: 2041-03-01
Also published as: CN113051926A

Abstract

本申请公开了文本抽取方法、设备和存储介质，涉及深度学习、知识图谱以及自然语言处理等人工智能技术领域。具体实现方案为：在对待处理文本进行属性值抽取的过程中，结合属性的第一语义特征信息和待抽取文本的第二语义特征信息，确定出该属性的各个属性值在待抽取文本的开始位置和结束位置；根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。由此，结合属性以及待抽取文本的语义特征信息准确确定出了属性的多个属性值在待抽取文本中的开始位置以及结束位置，并结合开始位置以及结束位置从待抽取文本中准确抽取出了各个属性值对应的文本片段，实现了对待抽取文本的多个属性值准确抽取。

Description

文本抽取方法、设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及深度学习以及自然语言处理等人工智能技术领域，尤其涉及文本抽取方法、设备和存储介质。

背景技术

随着互联网的普及和发展，网络中的信息规模呈爆炸式地增长，如何从海量自然语言文档中及时准确地找到需要的信息变得日益迫切。信息抽取技术(InformationExtraction，IE)从松散、无结构的普通文本中抽取出实体、属性以及对应属性值，并输出结构化的数据。其中，从待抽取文本中准确抽取出属性所对应的各个属性值是信息抽取技术中的一项重要任务。因此，如何从普通文本中准确抽取出属性值是目前亟需解决的技术问题。

发明内容

本申请提供了一种用于文本抽取方法、设备和存储介质。

根据本申请的一方面，提供了一种文本抽取方法，包括：获取待抽取文本以及对应的属性；确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息；根据所述第一语义特征信息和所述第二语义特征信息，确定所述属性的各个属性值在所述待抽取文本的开始位置和结束位置；根据各个属性值在所述待抽取文本的开始位置和结束位置，确定所述待抽取文本针对所述属性的属性值抽取结果。

根据本申请的另一方面，提供了一种文本抽取装置，包括：第一获取模块，用于获取待抽取文本以及对应的属性；第一确定模块，用于确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息；第二确定模块，用于根据所述第一语义特征信息和所述第二语义特征信息，确定所述属性的各个属性值在所述待抽取文本的开始位置和结束位置；第三确定模块，用于根据各个属性值在所述待抽取文本的开始位置和结束位置，确定所述待抽取文本针对所述属性的属性值抽取结果。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请的文本抽取方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请实施例公开的文本抽取方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请的文本抽取方法。

本申请具有以下技术效果：

在对待处理文本进行属性值抽取的过程中，结合属性的第一语义特征信息和待抽取文本的第二语义特征信息，确定出该属性的各个属性值在待抽取文本的开始位置和结束位置；根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。由此，结合属性以及待抽取文本的语义特征信息准确确定出了属性的多个属性值在待抽取文本中的开始位置以及结束位置，并结合开始位置以及结束位置从待抽取文本中准确抽取出了各个属性值对应的文本片段，实现了对待抽取文本的多个属性值准确抽取。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例提供的一种文本抽取方法的流程示意图；

图2是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图；

图3是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图；

图4是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图；

图5是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图

图6是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图；

图7是根据本申请一个多任务学习网络的网络结构示意图；

图8是根据本申请一个实施例提供的一种文本抽取装置的结构示意图；

图9是根据本申请另一个实施例提供的一种文本抽取装置的结构示意图；

图10是用来实现本申请实施例的文本抽取方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的文本抽取方法、设备和存储介质。

图1是根据本申请一个实施例提供的一种文本抽取方法的流程示意图。

如图1所示，该文本抽取方法可以包括：

步骤101，获取待抽取文本以及对应的属性。

其中，上述文本抽取方法的执行主体为文本抽取装置，该文本抽取装置可以由软件和/或硬件的方式实现，该实施例中的文本抽取装置可以配置在电子设备中，该电子设备可以包括但不限于终端设备、服务器等，该实施例对此不作具体限定。

其中，本实施例中的待抽取文本可以为任意文本。在一些实施例中，上述待抽取文本可以为任意领域中的非结构化文本，也就是说，待抽取文本可以为任意领域中的自由文本。

步骤102，确定属性的第一语义特征信息和待抽取文本的第二语义特征信息。

步骤103，根据第一语义特征信息和第二语义特征信息，确定属性的各个属性值在待抽取文本的开始位置和结束位置。

在本实施例中，上述属性可以分为多种类型，可以包括离散型多值属性、融合型多值属性和嵌套型多值属性。

例如，待抽取文本为“某某甲酯(在实际应用中为具体的药名名称)不良反应抽搐食欲减退失眠，心动过速”，该待抽取文本对应的属性为“不良反应”，该属性“不良反应”对应的多个属性值为“抽搐”、“食欲减退”、“失眠”、“心动过速”。该“不良反应”对应的属性类型为离散型多值属性。

其中，融合型多值属性，是指属性对应的多个属性值间有成分共享的情况。又例如，待抽取文本“某某甲酯(在实际应用中为具体的药名名称)，[禁忌症]明显焦虑、紧张、激动患者禁用，因为*****甲酯可使这些症状加重”。其中，属性“禁忌症”对应的属性值为“焦虑、紧张、激动患者”，属性“禁忌症”对应的属性类型为融合型多值属性。

嵌套型多值属性，是指属性对应的多个属性值间具有包含关系。例如，待抽取文本为“市民反映海淀区苏州街*号*大厦消防通道乱停车问题”，属性“地点”对应的多个属性值，多个属性值为“海淀区”、“海淀区苏州街”、“海淀区苏州街*号*大厦”。属性“地点”所对应的属性类型为嵌套型多值属性。

步骤104，根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。

在一些实施例中，针对各个属性值，从待抽取文本中获取从属性值的开始位置到结束位置的文本片段，根据各个属性值对应的文本片段，生成待抽取文本针对属性的属性值抽取结果。

本申请实施例的文本抽取方法，在对待处理文本进行属性值抽取的过程中，结合属性的第一语义特征信息和待抽取文本的第二语义特征信息，确定出该属性的各个属性值在待抽取文本的开始位置和结束位置；根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。由此，结合属性以及待抽取文本的语义特征信息准确确定出了属性的多个属性值在待抽取文本中的开始位置以及结束位置，并结合开始位置以及结束位置从待抽取文本中准确抽取出了各个属性值对应的文本片段，实现了对待抽取文本的多个属性值准确抽取。

图2是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图。其中，需要说明的是，本实施例是对上述实施例的进一步细化或者优化。

如图2所示，该文本抽取方法可以包括：

步骤201，获取待抽取文本以及对应的属性。

在本实施例中，待抽取文本对应的属性的一种可能实现方式为：将待抽取文本输入到属性分析模型中，以通过该属性分析模型确定出该待抽取文本对应的属性。

例如，待抽取文本为“某某甲酯(在实际应用中为具体的药名名称)不良反应抽搐食欲减退失眠，心动过速”，通过对该待抽取文本进行分析，可以确定该待抽取文本对应的属性为“不良反应”。

又例如，待抽取文本为“市民反映海淀区苏州街*号*大厦消防通道乱停车问题”，通过属性分析模型对该待抽取文本进行属性分析，可以得到该待抽取文本对应的属性为“地点”。

步骤202，确定属性的第一语义特征信息和待抽取文本的第二语义特征信息。

步骤203，将第一语义特征信息和第二语义特征信息输入至抽取模型的指针网络层，以得到属性的各个属性值在待抽取文本的开始位置和结束位置。

在一些实施例中，上述指针网络层可以为训练后的指针模型，例如，指针网络层可以为条件多指针网络模型。

在本实施例中，在获取到第一语义特征信息和第二语义特征信息后，通过抽取模型的指针网络层，可准确且快速地确定出属性的各个属性值在待抽取文本的开始位置和结束位置。

步骤204，根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。

在本申请的一个实施例中，为了可以快速且准确确定出待抽取文本针对属性的属性值抽取结果，本申请实施例中的抽取模型中还可以包括语义表示层，上述确定属性的第一语义特征信息和待抽取文本的第二语义特征信息的一种可能实现方式为：将属性和待抽取文本输入至语义表示层，以得到属性的第一语义特征信息和待抽取文本的第二语义表示信息。

其中，上述语义表示层，可以为经过预训练的语义表示层，可以学习到属性以及待抽取文本的语义信息以及外部知识，从而能够结合更多的知识来确定属性的属性值在待抽取文本中的开始位置以及结束位置。

在一些实施例中，上述语义表示层可以为知识增强的语义表示模型(EnhancedRepresentation from kNowledge IntEgration，ERNIE)。

作为一种示例性的实施方式，可对属性以及待抽取文本，以预设的划分粒度进行划分，以得到属性对应的第一文本单元序列以及待抽取文本对应的第二文本单元序列。对应地，在第一文本单元序列以及第二文本单元序列之间添加一个预设的分割符，以形成输入序列，并将输入序列输入到抽取模型的语义表示层，以通过语义表示层得到输入序列对应的语义特征序列。其中，可以理解的是，通过分割符，可从语义特征序列中，确定出第一文本单元序列对应的第一语义特征序列，以及确定出第二文本单元序列对应的第二语义特征序列。

其中，上述划分粒度可以是字级别的，也可以是词级别的。

其中，预设的分隔符是预先设置的，例如，预设的分割符可以为SEP。

图3是根据本申请另一个实施例提供的一种文本抽取方法的流程示意图。其中，需要说明的是，本实施例中的指针网络层包括开始位置预测层和结束位置预测层。

如图3所示，该将第一语义特征信息和第二语义特征信息输入至抽取模型的指针网络层，以得到属性的各个属性值在待抽取文本的开始位置和结束位置，可以包括：

步骤301，将第一语义特征信息和第二语义特征信息输入到开始位置预测层，以得到待抽取文本中各个文本单元作为属性值的开始位置的第一预测结果。

在一些实施例中，上述文本单元可以为字级别的单元。也就是说，在本实施例中，可以以字粒度对待抽取文本进行划分，以得到文本单元序列，其中，文本单元序列包括按照划分顺序的多个文本单元。

在另一些实施例中，上述文本单元可以为词级别的单元。也就是说，在本实施例中，可以以词级别对待抽取文本进行划分，以得到文本单元序列，其中，文本单元序列包括按照划分顺序的多个文本单元。

步骤302，将第一语义特征信息、第二语义特征信息和第一概率信息第一预测结果输入至结束位置预测层，以得到各个文本单元作为属性值的结束位置的第二概率信第二预测结果息。

步骤303，根据第一概率信息预测结果和第二概率信息预测结果，确定属性的各个属性值在待抽取文本的开始位置和结束位置。

在一些实施例中，上述第一预测结果，用于指示待抽取文本中各个文本单元作为属性值的开始位置的取值，上述第二预测结果，用于指示待抽取文本中各个文本单元作为属性值的结束位置的取值。例如，取值可以为概率值，或者评分。

在另一实施例中，上述第一预测结果，用于指示待抽取文本中各个文本单元作为属性值的开始位置的标记值。例如，可通过标记值0和1对其进行表示，例如，针对一个文本单元，在确定该文本单元可以作为属性值的开始位置时，对应的标记值可以为1。在确定该文本单元不可以作为属性值的开始位置时，对应的标记值可以为0。上述第二预测结果，用于指示待抽取文本中各个文本单元作为属性值的结束位置的标记值。例如，可通过标记值0和1对其进行表示，例如，针对一个文本单元，在确定该文本单元可以作为属性值的结束位置时，对应的标记值可以为1。在确定该文本单元不可以作为属性值的结束位置时，对应的标记值可以为0。

在一些实施例中在第一预测结果以及第二预测结果均为概率信息的情况下，在开始位置预测层结合第一语义特征信息以及第二语义特征信息，确定出对应文本单元作为属性值的开始位置的第一概率信息后，将第一概率信息、第一语义特征信息以及第二语义特征信息输入到结束位置预测层中，准确确定出对应属性单元作为属性值的结束位置的第二概率信息，并结合第一概率信息以及第二概率信息，准确确定出了各个属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，为了可以准确确定出对应属性值在待抽取文本的开始位置和结束位置，上述根据第一预测结果和第二预测结果，确定属性的各个属性值在待抽取文本的开始位置和结束位置，包括：从第一预测结果中，获取可作为属性值的开始位置的多个文本单元在待抽取文本中所对应的多个第一位置；从第二预测结果中，获取可作为属性值的结束位置的多个文本单元在待抽取文本中所对应的多个第二位置；根据多个第一位置和多个第二位置，确定各个属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，为了可进一步准确确定出对应属性值在待抽取文本的开始位置和结束位置，上述根据多个第一位置和多个第二位置，确定各个属性值在待抽取文本的开始位置和结束位置的一种可能实现方式，如图4所示，可以包括：

步骤401，针对各个第一位置，从多个第二位置中，获取位于第一位置之后且距离第一位置最近的目标第二位置，并将第一位置和目标第二位置分别作为对应属性值在待抽取文本的开始位置和结束位置。

步骤402，针对各个第二位置，从多个第一位置中，获取位于第二位置之前且距离第二位置最近的目标第一位置，并将目标第一位置和第二位置分别作为对应属性值在待抽取文本的开始位置和结束位置。

也就是说，在本实施例中，可采用近匹配原则，对多个第一位置以及多个第二位置进行匹配，其中，一个第一位置可以与目标第二位置匹配，目标第二位置为多个第二位置中的至少一个。反之，一个第二位置可以与目标第一位置匹配，其中，目标第一位置可以为多个第一位置中的至少一个。

在一些实施例中，可在第一预测结果以及第二预测结果中，通过第一标注值的方式，表示对应文本单元是否可作为属性值的开始位置，以及通过第二标注值的方式，表示对应文本单元是否可作为属性值的结束位置。其中，第一标注值和第二标注值是预先设置的值，例如，第一标注值和第二标注值可以均为1。其中，第一标注值，与对应属性值所对应的文本单元在待抽取文本中的开始位置对应。第二标注值，与对应属性值所对应的文本单元在待抽取文本中的结束位置对应。

举例而言，待抽取文本为“市民反映海淀区苏州街*号*大厦消防通道乱停车问题。”，通过指针网络层对待抽取文本进行开始位置以及结束位置进行预测时，针对开始位置输出的第一标注结果序列为{0 0 0 0 1 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0}，针对结束位置输出的第二标注结果序列为{0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 0 00 0 0 0 0}。可从第一标注结果序列中，获取第一标注值1所对应的文本单元在待抽取文本的第一位置。对应地，可从第二标注结果序列中，获取第二标注值1所对应的文本单元在待抽取文本的第二位置。如果确定出第一位置为“海”对应的位置，三个第二位置，第二位置1为“区”对应的位置，第二位置2为“街”对应的位置，第三位置3为“厦”对应的位置。通过上述就近匹配原则对第一位置以及多个位置进行处理，以得到匹配结果，其中，匹配结果为：第一位置与第二位置1匹配；第二位置1与第一位置匹配；第二位置2与第一位置匹配；第三位置3与第一位置匹配。根据匹配结果，可确定出属性值对应的文本片段为：海淀区、海淀区、海淀区苏州街、海淀区苏州街*号*大厦。为了可准确属性值抽取结果，可对属性值对应的文本片段进行去重处理，以得到属性值抽取结果。

在本申请的一个实施例中，为了增强了抽取模型对于有限数据的运用能力，提升属性值的抽取效果，可通过多任务学习网络对抽取模型的指针网络层进行联合学习。

在一些实施例中，通过多任务学习网络，来确定抽取模型中的指针网络层的方式，如图5所示，可以包括：

步骤501，获取多任务学习网络以及对应的训练数据，其中，多任务学习网络包括初始的指针网络层。

步骤502，根据训练数据对多任务学习网络进行训练，以得到训练后的多任务学习网络。

步骤503，根据训练后的多任务学习网络中的指针网络层，确定抽取模型中的指针网络层。

在一些实施例中，为了可以准确得到抽取模型中的指针网络层，上述多任务学习网络模型还包括初始的分类模型，训练数据包括样本文本以及样本属性的语义表示特征、样本文本对应的标签数据，根据训练数据对多任务学习网络进行训练，以得到训练后的多任务学习网络的一种可能实现方式为：将样本文本以及样本属性的语义表示特征输入至初始的分类模型，以通过初始的分类模型来确定样本文本是否包括样本属性的属性值的分类预测结果；将样本文本以及样本属性的语义表示特征输入至初始的指针网络层，以得到样本属性的属性值抽取预测结果；根据分类预测结果、属性值抽取预测结果以及标签数据，对多任务学习网络进行训练。

为了使得本领域技术人员可以清楚了解本申请，下面结合图6以及图7对该实施例的通过多任务学习网络来得到抽取模型中的指针网络层的技术方案进行进一步描述。

，其中，分类模型用于预测输入文本中是否包括属性对应的属性值。在获取待抽取文本以及对应的属性之前，可结合训练数据对多任务学习网络进行训练，并根据训练后的多任务学习网络，确定出上述抽取模型。如图5所示，该实施例的方法还可以包括：

步骤601，获取多任务学习网络以及对应的训练数据。

其中，多任务学习网络包括语义表示层、与语义表示层连接的初始的分类模型以及初始的指针网络层。

其中，本实施例中的多任务学习网络的网络结构的示例图，如图7所示。需要说明的是，图7中以语义表示层为预训练语言模型ERN I E为例进行示意，通过图7可以看出，本实施例中的指针网络层包括开始位置预测层以及结束位置预测层，其中，将ERN I E的输出输入至开始位置预测层，从而通过开始位置预测层得到样本文本中属性名称的多个属性值在样本文本中的开始位置。将开始位置预测层以及ERN I E的输出输入至结束位置预测层，从而通过结束位置层得到样本文本中属性名称的多个属性值在样本文本中的结束位置。

其中，训练数据包括：样本文本、属性名称以及样本文本的标签数据，其中，标签数据包括：第一标签和第二标签，第一标签与初始的分类模型对应，第二标签与初始的指针网络层对应。

步骤602，将样本文本和属性名称输入到语义表示层。

其中，本实施例中的语义表示层为经过预训练的语义表示层。

将语义表示层输出的语义表示特征输入至初始的分类模型，以通过初始的分类模型来确定样本文本是否包括属性名称的属性值，并获取得到初始的分类模型的第一预测结果。

步骤603，将语义表示层输出的语义表示特征输入至初始的指针网络层，以得到指针网络层针对属性名称的属性值的第二预测结果。

步骤604，根据第一标签和第一预测结果，以及第二标签和第二预测结果，对多任务学习网络进行训练，以得到训练后的多任务学习网络。

步骤605，根据训练后的多任务学习网络中的指针网络层和语义表示层，得到抽取模型。

本实施例，结合分类模型以及指针网络层进行多任务学习，并结合语义表示层和多任务学习得到的指针网络，得到了训练后的抽取模型。由此，可以方便后续可通过训练后的抽取模型对输入文本的属性值进行准确抽取。

另外，可以理解的是，通过多任务学习的方式，对分类模型以及抽取模型的指针网络层进行训练，还可以降低训练的成本，并且可提高训练后的指针网络层的泛化能力。

在本申请的一个实施例中，为了提高了训练后指针网络层的效果，上述根据第一标签和第一预测结果，以及第二标签和第二预测结果，对多任务学习网络进行训练的一种可能实现方式为：根据第一标签和第一预测结果，确定初始的分类模型对应的第一损失函数值；根据第二标签和第二预测结果，确定初始的指针网络层的第二损失函数值；根据第一损失函数值以及第二损失函数值，确定多任务学习网络的总损失函数值；根据总损失函数值，调整多任务学习网络的参数。

在本实施例中，可获取与分类模型对应的第一权重，并获取与指针网络层对应的第二权重，并将第一权重与第一损失函数值的乘积，以及第二权重与第二损失函数值的乘积进行求和，以得到多任务学习网络的总损失函数值。

其中，上述第一权重和第二权重是根据分类模型训练任务以及指针网络层训练任务的重要程度预先设置的。

在一种示例性的实施方式中，可将指针网络层作为多任务学习网络的主任务，并将分类模型作为辅助任务。其中，条件多指针模型，用于预测开始位置和终止位置。分类模型，用于预测输入样本文本中是否包含待提取的属性值。

在一些实施例中，主任务以及辅助任务对应的损失函数可以均为交叉熵。

为了实现上述实施例，本申请实施例还提供一种文本抽取装置。

图8是根据本申请一个实施例提供的一种文本抽取装置的结构示意图。

如图8所示，该文本抽取装置800可以包括第一获取模块801、第一确定模块802、第二确定模块803、第三确定模块804，其中：

第一获取模块801，用于获取待抽取文本以及对应的属性。

第一确定模块802，用于确定属性的第一语义特征信息和待抽取文本的第二语义特征信息。

第二确定模块803，用于根据第一语义特征信息和第二语义特征信息，确定属性的各个属性值在待抽取文本的开始位置和结束位置。

第二获取模块804，用于根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。

其中，需要说明的是，前述对文本抽取方法实施例的解释说明也适用于本实施例，本实施对此不再赘述。

本申请实施例的文本抽取装置，在对待处理文本进行属性值抽取的过程中，结合属性的第一语义特征信息和待抽取文本的第二语义特征信息，确定出该属性的各个属性值在待抽取文本的开始位置和结束位置；根据各个属性值在待抽取文本的开始位置和结束位置，确定待抽取文本针对属性的属性值抽取结果。由此，结合属性以及待抽取文本的语义特征信息准确确定出了属性的多个属性值在待抽取文本中的开始位置以及结束位置，并结合开始位置以及结束位置从待抽取文本中准确抽取出了各个属性值对应的文本片段，实现了对待抽取文本的多个属性值准确抽取。

在本申请的一个实施例中，如图9所示，该文本抽取装置可以包括：第一获取模块901、第一确定模块902、第二确定模块903、第三确定模块904、第二获取模块905、训练模块906和第四确定模块907。其中，第二确定模块903可以包括抽取子模块9031，抽取子模块9031可以包括：第一预测单元90311、第二预测单元90312和确定单元90313，确定单元90313，包括：第一确定子单元903131、第二确定子单元903132和第三确定子单元903133。

其中，关于第一获取模块901、第三确定模块904的详细描述可参考图8所示实施例中第一获取模块801、第三确定模块804的说明，此处不再进行描述。

在本申请的一个实施例中，上述第二确定模块903可以包括：

抽取子模块9031，用于将第一语义特征信息和第二语义特征信息输入至抽取模型的指针网络层，以得到属性的各个属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，指针网络层包括开始位置预测层和结束位置预测层，抽取子模块9031，可以包括：

第一预测单元90311，用于将第一语义特征信息和第二语义特征信息输入到开始位置预测层，以得到待抽取文本中各个文本单元作为属性值的开始位置的第一预测结果；

第二预测单元90312，用于将第一语义特征信息、第二语义特征信息和第一预测结果输入至结束位置预测层，以得到各个文本单元作为属性值的结束位置的第二预测结果；

确定单元90313，用于根据第一预测结果和第二预测结果，确定属性的各个属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，确定单元90313，包括：

第一获取单元903131，用于从第一预测结果中，获取可作为属性值的开始位置的多个文本单元在待抽取文本中所对应的多个第一位置；

第二获取单元903132，用于从第二预测结果中，获取可作为属性值的结束位置的多个文本单元在待抽取文本中所对应的多个第二位置；

确定单元903133，用于根据多个第一位置和多个第二位置，确定各个属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，确定单元903133，具体用于：针对各个第一位置，从多个第二位置中，获取位于第一位置之后且距离第一位置最近的目标第二位置，并将第一位置和目标第二位置分别作为对应属性值在待抽取文本的开始位置和结束位置；针对各个第二位置，从多个第一位置中，获取位于第二位置之前且距离第二位置最近的目标第一位置，并将目标第一位置和第二位置分别作为对应属性值在待抽取文本的开始位置和结束位置。

在本申请的一个实施例中，抽取模型还包括语义表示层，第一确定模块902，具体用于：将属性和待抽取文本输入至语义表示层，以得到属性的第一语义特征信息和待抽取文本的第二语义表示信息。

在本申请的一个实施例中，上述装置还可以包括：

第二获取模块905，用于获取多任务学习网络以及对应的训练数据，其中，多任务学习网络包括初始的指针网络层；

训练模块906，用于根据训练数据对多任务学习网络进行训练，以得到训练后的多任务学习网络；

第四确定模块907，用于根据训练后的多任务学习网络中的指针网络层，确定抽取模型中的指针网络层。

在本申请的一些实施例中，多任务学习网络模型还包括初始的分类模型，训练数据包括样本文本以及样本属性的语义表示特征、样本文本对应的标签数据，训练模块906，具体用于：将样本文本以及样本属性的语义表示特征输入至初始的分类模型，以通过初始的分类模型来确定样本文本是否包括样本属性的属性值的分类预测结果；将样本文本以及样本属性的语义表示特征输入至初始的指针网络层，以得到样本属性的属性值抽取预测结果；根据分类预测结果、属性值抽取预测结果以及标签数据，对多任务学习网络进行训练。

其中，需要说明的是，前述对文本抽取方法实施例的解释说明也适用于本实施例中的文本抽取装置，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(A I)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本抽取方法。例如，在一些实施例中，文本抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本抽取方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本抽取方法，包括：

获取待抽取文本以及对应的属性；

确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息；

将所述第一语义特征信息和所述第二语义特征信息输入至抽取模型中指针网络层的开始位置预测层，以得到所述待抽取文本中各个文本单元作为属性值的开始位置的第一预测结果；

将所述第一语义特征信息、所述第二语义特征信息和所述第一预测结果输入至抽取模型中指针网络层的结束位置预测层，以得到各个文本单元作为属性值的结束位置的第二预测结果；

从所述第一预测结果中，获取可作为属性值的开始位置的多个文本单元在所述待抽取文本中所对应的多个第一位置；

从所述第二预测结果中，获取可作为属性值的结束位置的多个文本单元在所述待抽取文本中所对应的多个第二位置；

根据所述多个第一位置和所述多个第二位置，确定各个属性值在所述待抽取文本的开始位置和结束位置；

根据各个属性值在所述待抽取文本的开始位置和结束位置，确定所述待抽取文本针对所述属性的属性值抽取结果。

2.根据权利要求1所述的方法，其中，所述根据所述多个第一位置和所述多个第二位置，确定各个属性值在所述待抽取文本的开始位置和结束位置，包括：

针对各个第一位置，从所述多个第二位置中，获取位于所述第一位置之后且距离所述第一位置最近的目标第二位置，并将所述第一位置和所述目标第二位置分别作为对应属性值在所述待抽取文本的开始位置和结束位置；

针对各个第二位置，从所述多个第一位置中，获取位于所述第二位置之前且距离所述第二位置最近的目标第一位置，并将所述目标第一位置和所述第二位置分别作为对应属性值在所述待抽取文本的开始位置和结束位置。

3.根据权利要求1所述的方法，其中，所述抽取模型还包括语义表示层，所述确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息，包括：

将所述属性和所述待抽取文本输入至所述语义表示层，以得到所述属性的第一语义特征信息和所述待抽取文本的第二语义表示信息。

4.根据权利要求1所述的方法，其中，在所述获取待抽取文本以及对应的属性之前，所述方法还包括：

获取多任务学习网络以及对应的训练数据，其中，所述多任务学习网络包括初始的指针网络层；

根据所述训练数据对所述多任务学习网络进行训练，以得到训练后的多任务学习网络；

根据所述训练后的多任务学习网络中的指针网络层，确定所述抽取模型中的所述指针网络层。

5.根据权利要求4所述的方法，其中，所述多任务学习网络模型还包括初始的分类模型，所述训练数据包括样本文本以及样本属性的语义表示特征、所述样本文本对应的标签数据，所述根据所述训练数据对所述多任务学习网络进行训练，以得到训练后的多任务学习网络，包括：

将所述样本文本以及所述样本属性的语义表示特征输入至所述初始的分类模型，以通过所述初始的分类模型来确定所述样本文本是否包括所述样本属性的属性值的分类预测结果；

将所述样本文本以及所述样本属性的语义表示特征输入至所述初始的指针网络层，以得到所述样本属性的属性值抽取预测结果；

根据所述分类预测结果、所述属性值抽取预测结果以及所述标签数据，对所述多任务学习网络进行训练。

6.一种文本抽取装置，包括：

第一获取模块，用于获取待抽取文本以及对应的属性；

第一确定模块，用于确定所述属性的第一语义特征信息和所述待抽取文本的第二语义特征信息；

第二确定模块，用于将所述第一语义特征信息和所述第二语义特征信息输入至抽取模型中指针网络层的开始位置预测层，以得到所述待抽取文本中各个文本单元作为属性值的开始位置的第一预测结果；将所述第一语义特征信息、所述第二语义特征信息和所述第一预测结果输入至抽取模型中指针网络层的结束位置预测层，以得到各个文本单元作为属性值的结束位置的第二预测结果；从所述第一预测结果中，获取可作为属性值的开始位置的多个文本单元在所述待抽取文本中所对应的多个第一位置；从所述第二预测结果中，获取可作为属性值的结束位置的多个文本单元在所述待抽取文本中所对应的多个第二位置；根据所述多个第一位置和所述多个第二位置，确定各个属性值在所述待抽取文本的开始位置和结束位置；

第三确定模块，用于根据各个属性值在所述待抽取文本的开始位置和结束位置，确定所述待抽取文本针对所述属性的属性值抽取结果。

7.根据权利要求6所述的装置，其中，所述第二确定模块，具体用于：

8.根据权利要求6所述的装置，其中，所述抽取模型还包括语义表示层，所述第一确定模块，具体用于：

9.根据权利要求6所述的装置，其中，所述装置还包括：

第二获取模块，用于获取多任务学习网络以及对应的训练数据，其中，所述多任务学习网络包括初始的指针网络层；

训练模块，用于根据所述训练数据对所述多任务学习网络进行训练，以得到训练后的多任务学习网络；

第四确定模块，用于根据所述训练后的多任务学习网络中的指针网络层，确定所述抽取模型中的所述指针网络层。

10.根据权利要求9所述的装置，其中，所述多任务学习网络模型还包括初始的分类模型，所述训练数据包括样本文本以及样本属性的语义表示特征、所述样本文本对应的标签数据，所述训练模块，具体用于：

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。