CN112507702A

CN112507702A - 文本信息的抽取方法、装置、电子设备及存储介质

Info

Publication number: CN112507702A
Application number: CN202011408777.3A
Authority: CN
Inventors: 刘涵; 胡腾; 路华; 陈永锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16
Anticipated expiration: 2040-12-03
Also published as: CN112507702B

Abstract

本申请公开了一种文本信息的抽取方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为深度学习技术领域和自然语言处理技术领域。具体实现方案为：获取待处理的文本和预设的属性列表；基于所述待处理的文本和所述属性列表中的各属性，采用预先训练的文本信息抽取模型，从所述待处理的文本中抽取与各所述属性匹配的文本信息。本申请可以采用文本信息抽取模型，基于属性列表中的各属性，从待处理的文本中抽取与各属性匹配的文本信息，能够有效地保证抽取的文本信息的准确性。而且，本实施例的技术方案，可以适用于抽取所有领域的文本信息，适用范围非常广。

Description

文本信息的抽取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习技术领域和自然语言处理技术领域，尤其涉及一种文本信息的抽取方法、装置、电子设备及存储介质。

背景技术

在日常处理文档的工作中普遍存在抽取关键信息的需求。例如，在处理合同时，需要知道“甲方”、“乙方”、“合同金额”等；再例如，在处理法律判决书时，需要知道“被告人”、“起诉人”、“涉嫌罪名”等。

基于以上所述，可以知道，现有技术中，不同领域下所需要抽取信息的类别或者属性并不相同。所以，不同领域下需要设置各自适用的信息抽取装置，以抽取该领域所需的信息，导致不同领域下的信息抽取装置，无法迁移至其他领域中。

发明内容

本申请提供了一种文本信息的抽取方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种文本信息的抽取方法，其中，所述方法包括：

获取待处理的文本和预设的属性列表；

基于所述待处理的文本和所述属性列表中的各属性，采用预先训练的文本信息抽取模型，从所述待处理的文本中抽取与各所述属性匹配的文本信息。

根据本申请的另一方面，提供了一种文本信息的抽取装置，其中所述装置包括：

获取模块，用于获取待处理的文本和预设的属性列表；

文本信息抽取模块，用于基于所述待处理的文本和所述属性列表中的各属性，采用预先训练的文本信息抽取模型，从所述待处理的文本中抽取与各所述属性匹配的文本信息。

根据本申请的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术，通过采用上述技术方案，可以采用文本信息抽取模型，基于属性列表中的各属性，从待处理的文本中抽取与各属性匹配的文本信息，能够有效地保证抽取的文本信息的准确性。而且，本申请的技术方案，可以适用于抽取所有领域的文本信息，适用范围非常广。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请第五实施例的示意图；

图6是用来实现本申请实施例的文本信息的抽取方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种文本信息的抽取方法，具体可以包括如下步骤：

S101、获取待处理的文本和预设的属性列表；

S102、基于待处理的文本和属性列表中的各属性，采用预先训练的文本信息抽取模型，从待处理的文本中抽取与各属性匹配的文本信息。

本实施例的文本信息的抽取方法的执行主体为文本信息的抽取装置，该装置可以为一电子实体，或者也可以为采用软件集成的应用。该装置中嵌入有文本信息抽取模型，在使用时，该文本信息抽取模型可以接收待处理的文本和预设的属性列表，并从待处理的文本中抽取与属性列表中各属性匹配的文本信息，实现基于属性从待处理的文本中抽取文本信息。

可选地，本实施例的预设的属性列表中可以包括一个以上的属性的信息。例如，属性列表可以为合同领域，其包括的属性可以有甲方、一方、合同金额等。或者属性列表也可以为法律领域，其包括的属性可以有被告人、起诉人、涉嫌罪名等等。对于任意一个领域，可以预先创建对应领域的属性列表，该属性列表中可以包括该领域中想要抽取的文本信息的属性。例如，此处的属性可以认为是文本信息对应的类别、或者也可以认为是文本信息对应的字段名等等。

本实施例的预先训练的文本信息抽取模型为一个端到端的神经网络模型模型，可以适用于处理任何领域下的文本信息的抽取。使用时，将获取的待处理的文本以及该领域对应的预设的属性列表输入至该文本信息抽取模型中。文本信息抽取模型可以基于属性列表中的各属性，从待处理的文本中抽取与该属性匹配的文本信息。

而现有技术中，某个领域下的信息抽取装置，在使用时，仅需要获取该待处理的文本，便可以实现从该待处理的文本中抽取文本信息。而且该领域下的信息抽取装置仅能够抽取该领域下的待处理文本中的文本信息的抽取，而不能抽取其他领域下的文本信息的抽取。与现有技术相比，本实施例的技术方案，可以处理开放领域下的任何一个领域的文本信息的抽取，适用性非常广。

本实施例的文本信息抽取模型的训练过程与使用过程类似，训练之前，预先采集涉及各个领域的数条训练文本，并获取各条训练文本对应的领域的预设的属性列表，以及基于各属性人工在训练文本中标注的对应的文本信息。训练时，将各条训练文本及对应的属性列表输入至该文本信息抽取模型中，该文本信息抽取模型基于输入的属性列表中各属性，从训练文本中抽取各属性匹配的文本信息。然后比对抽取的文本信息与人工标注的文本信息是否一致，若不一致，调整文本信息抽取模型的参数，使得抽取的文本信息和人工标注的文本信息趋于一致。采用数条训练文本，按照上述方式不断地对文本信息抽取模型进行训练，直在连续轮数的训练中，抽取的文本信息与人工标注的文本信息始终一致，此时训练结束，确定文本信息抽取模型的参数，进而确定文本信息抽取单元。

本实施例的文本信息的抽取方法，通过获取待处理的文本和预设的属性列表；基于待处理的文本和属性列表中的各属性，采用预先训练的文本信息抽取模型，从待处理的文本中抽取与各属性匹配的文本信息，本实施例的技术方案，可以采用文本信息抽取模型，基于属性列表中的各属性，从待处理的文本中抽取与各属性匹配的文本信息，能够有效地保证抽取的文本信息的准确性。而且，本实施例的技术方案，可以适用于抽取所有领域的文本信息，适用范围非常广。

图2是根据本申请第二实施例的示意图；如图2所示，本实施例的文本信息的抽取方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。如图2所示，本实施例的文本信息的抽取方法，具体可以包括如下步骤：

S201、获取待处理的文本和预设的属性列表；

参考上述图1所示实施例的步骤S101的记载，在此不再赘述。

S202、基于待处理的文本和属性列表中的各属性，采用文本信息抽取模型，从待处理的文本中筛选出各属性对应的至少一个候选文本片段；

本实施例中，可以将文本信息抽取模型分为筛选单元和抽取单元两部分来介绍。例如，筛选单元可以用于从待处理的文本中筛选出各属性对应的至少一个候选文本片段。而抽取单元可以用于从各属性对应的至少一个候选文本片段中抽取与对应的属性匹配的文本信息。

例如，该步骤具体实现时可以包括如下步骤：

(a1)采用文本信息抽取模型对待处理文本进行切分，得到数个文本片段；

例如，具体地，在文本信息抽取模型中的筛选单元内可以分为切分子单元和筛选子单元。其中可以根据预设的分隔符列表，采用切分子单元对待处理文本进行切分处理，得到数个文本片段。

可选地，预设的分割符列表S，可以采用如下方式表示：S＝{"。"，"？"，"！"，"\t"，"\n"}，也就是说，本实施例的分隔符列表中可以包括句号，问号，感叹号，换行等等能够标识一句话结束的符号，而不包括逗号、分号等一句话中间的符号，这样，可以保证切分后的每一个文本片段都是整句话，构成完整的短文本，可以有效地保证得到的文本片段的完整性与准确性，进而可以保证后续基于数个文本片段获取的各属性对应的至少一个候选文本片段的准确性。

(b1)基于数个文本片段以及属性列表中的各属性，采用文本信息抽取模型从数个文本片段中筛选各属性对应的至少一个候选文本片段。

例如，具体可以采用文本信息抽取模型中的筛选单元内的筛选子单元来实现该步骤。

该步骤用于基于各属性，从数个文本片段中筛选各属性对应的至少一个候选文本片段。例如，可以采用各属性与各文本片段的语义匹配的方式，从数个文本片段中筛选与各属性的语义匹配的至少一个候选文本片段。例如，本实施例的语义匹配的方式，可以采用预选训练的语义识别模型识别各文本片段以及各属性的语义，进而基于语义的相似性来进行匹配，获取每个属性对应的至少一个候选文本片段。或者还可以采用预先训练的特征表达模型，获取各文本片段以及各属性的特征表达，例如本实施例的特征表达可以采用向量的形式来表示。进而基于各文本片段以及各属性的特征表达，计算各文本片段与各属性的相似度，并基于各文本片段与各属性的相似度，筛选与各属性最相似的至少一个候选文本片段。

S203、对于各属性以及该属性对应的至少一个候选文本片段，采用文本信息抽取模型，从至少一个候选文本片段中抽取与该属性匹配的文本信息。

具体地，基于上述筛选的每个属性对应的至少一个候选文本片段，从各属性对应的至少一个候选文本片段中，抽取与该属性匹配的文本信息。如若属性为字段名时，对应的文本信息即为属性的内容。如属性为甲方时，对应的文本信息即为甲方的具体名称，如张三、李四或者XX公司等等。该步骤可以采用文本信息抽取模型中的抽取单元来实现该步骤。

本实施例的文本信息的抽取方法，通过采用上述技术方案，可以先基于待处理的文本和属性列表中的各属性，采用文本信息抽取模型，从待处理的文本中筛选出各属性对应的至少一个候选文本片段，对于各属性以及该属性对应的至少一个候选文本片段，缩小文本信息抽取的范围，进一步再采用文本信息抽取模型，从至少一个候选文本片段中抽取与该属性匹配的文本信息，进而进行更加精准的信息抽取，能够有效地提高文本信息抽取的准确性。

而且，本实施例的文本信息的抽取过程中，还需要先获取待处理文本中的数个文本片段，然后基于待处理文本中的数个文本片段及属性列表中的各属性，从数个文本片段中筛选各属性对应的至少一个候选文本片段，避免从整个待处理文本中来筛选各属性对应的至少一个候选文本片段，进一步有效地提高获取的各属性的候选文本片段的准确性，进而能够有效地提高文本信息抽取的准确性。

图3是根据本申请第三实施例的示意图；如图3所示，本实施例的文本信息的抽取方法，在上述图3所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。如图3所示，本实施例的文本信息的抽取方法，具体可以包括如下步骤：

S301、获取待处理的文本和预设的属性列表；

参考上述图1所示实施例的步骤S101的记载，在此不再赘述。

S302、根据预设的分隔符列表，采用文本信息抽取模型对待处理文本进行切分处理，得到数个文本片段；

例如，该步骤可以采用文本信息抽取模型中的筛选单元内的切分子单元来实现。详细上述图2所示实施例中的步骤(a1)的相关记载，在此不再赘述。

S303、采用文本信息抽取模型获取数个文本片段中各文本片段的特征表达；

S304、采用文本信息抽取模型获取各属性的特征表达；

S305、基于各文本片段的特征表达和各属性的特征表达，采用文本信息抽取模型从数个文本片段中分别筛选特征表达与各属性的特征表达相似的至少一个候选文本片段；

例如，该步骤S303-S305可以采用文本信息抽取模型中的筛选单元内的筛选子单元来实现，其中步骤S303-S304具体实现时可以采用ERNIE-TINY模型来实现。

本实施例的各文本片段的特征表达可以采用向量的形式，可以称之为特征向量。又因为特征向量是基于语义来实现的，所以也可以称之为语义特征向量。

下面以一个文本片段D′_k为例，介绍其特征表达的获取过程。首先需要先进行预处理，预处理过程中将该文本片段D′_k按照[CLS]D′_k[SEP]的规则拼接字符；其中CLS表示起始符，SEP表示间隔符。经过ERNIE-TINY模型的WordPiece切词方法对所有字符进行切词后，文本片段D′_k部分被切分成多个词块，而CLS和SEP分别作为独立的词块，位于开头和结尾。进而基于ERNIE-TINY模型生成每个词块的词向量(Token Embedding)、句对向量(SegmentEmbedding)与位置向量(Position Embedding)，将三者相加后作为该词块的特征向量，所有词块的特征向量拼接为特征矩阵，输入至ERNIE-TINY模型中。其中所有词块的句对向量都相同。位置向量能够标识每个词块在该文本片段D′_k中的位置信息。

该ERNIE-TINY模型基于输入的特征矩阵，进行深层次语义提取处理，其中该深层次的语义提出处理中采用多层注意力机制来实现，可以参考上下文词块的特征向量，来重新表述各词块的特征向量。这样，可以使得深层次语义提取处理后的[CLS]的特征向量携带了该文本片段D′_k中各词块的信息，因此，本实施例中，可以将[CLS]符号对应的输出向量作为该文本片段D′_k的语义特征向量，可以表示为V_k。

同理，若属性列表中存在t个属性，t为正整数。可以采用ERNIE-TINY模型基于同样的方式，获取各属性的特征表达即各属性的语义特征向量，可以表示为T_t。

上述通过ERNIE-TINY模型，能够有效地保证获取的各文本片段和各属性的特征表达的准确性。

步骤S305在实施时，可以先基于各文本片段的特征表达和各属性的特征表达，计算各文本片段分别与各属性的相似度。然后借助于预设的相似度阈值，从数个文本片段中获取与各属性的相似度大于预设相似度阈值的至少一个文本片段，作为该属性对应的至少一个候选文本片段，以有效地缩小提取该属性对应的文本信息的抽取范围，提高文本信息抽取效率。

例如，对各个属性的语义特征向量表示T_t，可以计算其与各文本片段的语义特征向量V_k间的余弦相似度，作为各文本片段与各属性的相似度，例如，假如共有m个文本片段，t个属性，将各文本片段与各属性的语义特征向量相乘后，得到的相似度矩阵C可以表示为：

为第i个属性与第j个文本片段的相似度。

进一步地，进行阈值过滤，如设定预设相似度阈值，作为相似度最小阈值η，对每个属性，选择所有大于η的相似度对应的文本片段D′_k，记第i个属性的过滤后的s个候选文本片段可以记为：

其中c_j∈{1,2,…,k},且

这样可以得到每条属性对应的候选文本片段。

S306、对于各属性及属性对应的各候选文本片段，采用文本信息抽取模型获取候选文本片段中各词块的特征表达；

本实施例中，还可以将文本信息抽取模型中的抽取单元内分为特征获取子单元、计算子单元和抽取子单元。其中该步骤具体可以由抽取单元中的特征获取子单元来实现。该特征获取子单元可以采用ERNIE模型来实现。

同理，本实施例的各词块的特征表达可以采用向量的形式，可以称之为特征向量。又因为特征向量是基于语义来实现的，所以也可以称之为语义特征向量。

具体地，获得每个属性与其对应候选文本后，采用ERNIE模型，得到在不同属性输入下的每条候选文本中每个字符的深层次语义特征向量，进一步通过答案预测模块解码后获得属性的value。具体的流程如下：

例如，首先获取一个属性K_i以及该属性对应的一个候选文本片段

同理，先进行预处理，如按照[CLS]K_i[SEP]

[SEP]的规则拼接字符，其中，[CLS]表示起始符，SEP表示间隔符。经过ERNIE-TINY模型的WordPiece切词方法对所有字符进行切词后，候选文本片段

部分被切分成多个词块，K_i作为独立的词块；CLS和SEP也分别作为独立的词块。进而基于ERNIE模型生成每个词块的词向量(Token Embedding)、句对向量(SegmentEmbedding)与位置向量(Position Embedding)，将三者相加后作为该词块的输入的特征向量。所有词块的输入的特征向量拼接为特征矩阵，输入至ERNIE模型中。其中所有词块的句对向量都相同。位置向量能够标识每个词块在候选文本片段

中的位置信息。

该ERNIE模型基于输入的特征矩阵，进行深层次语义提取处理，其中该深层次的语义提出处理中采用多层注意力机制来实现，可以参考上下文词块的特征向量，来重新表述各词块的特征向量。这样，可以使得深层次语义提取处理后的各词块的特征向量携带属性K_i的信息，因此，本实施例中，可以将对应的输出向量中各词块的特征向量作为该词块最终的语义特征向量。

与上述步骤S303-S304不同的是，这里获取的是每个词块的语义特征向量，而上述步骤S303-S304中提取的CLS对应的语义特征向量。

上述通过ERNIE模型，能够有效地保证各候选文本片段中的各词块的特征表达的准确性。

S307、根据候选文本片段中各词块的特征表达，采用文本信息抽取模型计算各词块属于属性的预测分值和不属于属性的预测分值；

该步骤具体可以由文本信息抽取模型中的抽取单元中的计算子单元来实现。具体地，在计算时，例如，可以采用多分类器，将每个词块的特征表达即语义特征向量映射至二值空间，得到每个词块的二分类输出，如可以表示为

其中

表示词块不属于属性的预测分值，

表示词块属于属性的预测分值。按照上述方式，可以计算每个词块的

和

例如，实际应用中，预测分值可以采用概率来表示，例如词块不属于属性的预测分值可以采用该词块不属于该属性的概率，词块属于属性的预测分值可以采用该词块属于该属性的概率来表示。

S308、根据候选文本片段中各词块属于属性的预测分值、不属于属性的预测分值和预设分值阈值，采用文本信息抽取模型从候选文本片段中抽取属于属性的文本信息。

具体地，该步骤具体可以由文本信息抽取模型中的抽取单元中的抽取子单元来实现。

在实际应用中，按照上述方式获取到每个候选文本片段中每个词块的属于属性的预测分值、不属于属性的预测分值之后，可以基于获取到的信息，抽取属于该属性的文本信息。例如，该步骤在具体实现时，具体可以包括如下步骤：

(a2)根据候选文本片段中各词块属于属性的预测分值和不属于属性的预测分值，采用抽取单元获取候选文本片段中的属于属性的预测分值大于不属于属性的预测分值的至少一个连续词块片段；

例如，对于每个候选文本片段，可以上述基于二分类的结果即属于属性的预测分值和不属于属性的预测分值，对候选文本片段中的每个词块做标记，如将

的词块标记为I，反之将

的词块标记为O，然后将连续为I标记的至少一个词块拼接在一起，作为一个I。这样，一个候选文本片段可以得到至少一个标记为I的连续词块片段。每个连续词块片段中也可以仅包括一个词块。

(b2)根据至少一个连续词块片段的各连续词块片段中各词块的属于属性的预测分值，采用抽取单元计算连续词块片段属于属性的预测分值；

对于连续词块片段中仅包括一个词块时，该连续词块片段的属于属性的预测分值还等于该词块属于该属性的预测分值。而对于拼接了至少两个词块的连续词块片段，需要计算该连续词块片段属于该属性的预测分值。具体地，该连续词块片段属于该属性的预测分值Score可以采用如下公式表示：

其中p表示该连词词块片段中包括的词块数量，即取该连续词块片段中p个词块的属于该属性的预测分值的平均值。

(c2)基于候选文本片段中的各连续词块片段属于属性的预测分值和预设分值阈值，采用抽取单元从至少一个连续词块片段中抽取属于属性的文本信息。

本实施例的预设分值阈值可以根据实际经验来选取。最后从至少一个连续词块片段中抽取属于该属性的预测分值大于预设分值阈值的连续词块片段作为抽取的属于该属性的文本信息。实际应用中，一个候选文本片段中可以仅抽取一段属于该属性的文本信息，也可以抽取两段或者以上的文本信息。且每个属性对应的候选文本片段的数量为多个时，需要按照上述实施例的方式，抽取对应的每个候选文本片段中属于该属性的文本信息。

另外，可选地，在实际应用中，步骤S308在实施时，也可以先按照步骤(a2)的方式，筛选出候选文本片段中的

的所有词块。接下来按照属于该属性的预测分值大于预设分值阈值的方式，筛选大于预设分值阈值的多个词块，最后再将位于候选文本片段中连续的词块拼接起来，作为最终抽取的文本信息。当然两种抽取方式抽取的结果可能相同，也可能不同。

本实施例的文本信息的抽取方法，通过采用上述技术方案，可以有效地保证文本信息抽取的准确性和抽取效率。而且本实施例的技术方案，可以适用于任何开放领域的文本信息的抽取，适用范围非常广。

图4是根据本申请第四实施例的示意图；如图4所示，本实施例提供一种文本信息的抽取装置400，包括：

获取模块401，用于获取待处理的文本和预设的属性列表；

文本信息抽取模块402，用于基于待处理的文本和属性列表中的各属性，采用预先训练的文本信息抽取模型，从待处理的文本中抽取与各属性匹配的文本信息。

本实施例的文本信息的抽取装置400，通过采用上述模块实现文本信息的抽取的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图5是根据本申请第五实施例的示意图；如图5所示，本实施例提供一种文本信息的抽取装置500，其在上述图4所示实施例的基础上，还进一步更加详细地介绍本申请的技术方案。

其中图5中的获取模块501和文本信息抽取模块502与上述图4中的获取模块401和文本信息抽取模块402相同，参考上述图4所示实施例的记载，在此不再赘述。

如图5所示，本实施例的文本信息的抽取装置500中，文本信息抽取模块502，包括：

筛选单元5021，用于基于待处理的文本和属性列表中的各属性，采用文本信息抽取模型从待处理的文本中筛选出各属性对应的至少一个候选文本片段；

抽取单元5022，用于对于各属性以及属性对应的至少一个候选文本片段，采用文本信息抽取模型，从至少一个候选文本片段中抽取与属性匹配的文本信息。

进一步可选地，如图5所示，筛选单元5021，包括：

切分子单元5021a，用于采用文本信息抽取模型对待处理文本进行切分，得到数个文本片段；

筛选子单元5021b，用于基于数个文本片段以及属性列表中的各属性，采用文本信息抽取模型从数个文本片段中筛选各属性对应的至少一个候选文本片段。

进一步可选地，筛选子单元5021b，用于：

采用文本信息抽取模型获取数个文本片段中各文本片段的特征表达；

采用文本信息抽取模型获取各属性的特征表达；

基于各文本片段的特征表达和各属性的特征表达，采用文本信息抽取模型从数个文本片段中分别筛选特征表达与各属性的特征表达相似的至少一个候选文本片段。

进一步可选地，切分子单元5021a，用于：

根据预设的分隔符列表，采用文本信息抽取模型对待处理文本进行切分处理，得到数个文本片段。

进一步可选地，如图5所示，抽取单元5022，包括：

特征获取子单元5022a，用于对于各属性及属性对应的各候选文本片段，采用文本信息抽取模型获取候选文本片段中各词块的特征表达；

计算子单元5022b，用于根据候选文本片段中各词块的特征表达，采用文本信息抽取模型计算各词块属于属性的预测分值和不属于属性的预测分值；

抽取子单元5022c，用于根据候选文本片段中各词块属于属性的预测分值、不属于属性的预测分值和预设分值阈值，采用文本信息抽取模型从候选文本片段中抽取属于属性的文本信息。

进一步可选地，抽取子单元5022c，用于：

根据候选文本片段中各词块属于属性的预测分值和不属于属性的预测分值，采用文本信息抽取模型获取候选文本片段中的属于属性的预测分值大于不属于属性的预测分值的至少一个连续词块片段；

根据至少一个连续词块片段的各连续词块片段中各词块的属于属性的预测分值，采用文本信息抽取模型计算连续词块片段属于属性的预测分值；

基于候选文本片段中的各连续词块片段属于属性的预测分值和预设分值阈值，采用文本信息抽取模型从至少一个连续词块片段中抽取属于属性的文本信息。

本实施例的文本信息的抽取装置500，通过采用上述模块实现文本信息的抽取的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是本申请实施例的实现文本信息的抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本信息的抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本信息的抽取方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本信息的抽取方法对应的程序指令/模块(例如，附图4和附图5所示的相关模块)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本信息的抽取方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现文本信息的抽取方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至实现文本信息的抽取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现文本信息的抽取方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与实现文本信息的抽取方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取待处理的文本和预设的属性列表；基于待处理的文本和属性列表中的各属性，采用预先训练的文本信息抽取模型，从待处理的文本中抽取与各属性匹配的文本信息，本申请的技术方案，可以采用文本信息抽取模型，基于属性列表中的各属性，从待处理的文本中抽取与各属性匹配的文本信息，能够有效地保证抽取的文本信息的准确性。而且，本实施例的技术方案，可以适用于抽取所有领域的文本信息，适用范围非常广。

根据本申请实施例的技术方案，通过采用上述技术方案，可以先基于待处理的文本和属性列表中的各属性，采用文本信息抽取模型中的筛选单元，从待处理的文本中筛选出各属性对应的至少一个候选文本片段，对于各属性以及该属性对应的至少一个候选文本片段，缩小文本信息抽取的范围，进一步再采用文本信息抽取模型中的抽取单元，从至少一个候选文本片段中抽取与该属性匹配的文本信息，进而进行更加精准的信息抽取，能够有效地提高文本信息抽取的准确性。

根据本申请实施例的技术方案，在文本信息的抽取过程中，还需要先获取待处理文本中的数个文本片段，然后基于待处理文本中的数个文本片段及属性列表中的各属性，从数个文本片段中筛选各属性对应的至少一个候选文本片段，避免从整个待处理文本中来筛选各属性对应的至少一个候选文本片段，进一步有效地提高获取的各属性的候选文本片段的准确性，进而能够有效地提高文本信息抽取的准确性。

根据本申请实施例的技术方案，通过采用上述技术方案，可以有效地保证文本信息抽取的准确性和抽取效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本信息的抽取方法，其中，所述方法包括：

获取待处理的文本和预设的属性列表；

2.根据权利要求1所述的方法，其中，所述基于所述待处理的文本和所述属性列表中的各属性，采用预先训练的文本信息抽取模型，从所述待处理的文本中抽取与各所述属性匹配的文本信息，包括：

基于所述待处理的文本和所述属性列表中的各所述属性，采用所述文本信息抽取模型，从所述待处理的文本中筛选出各所述属性对应的至少一个候选文本片段；

对于各所述属性以及所述属性对应的所述至少一个候选文本片段，采用所述文本信息抽取模型，从所述至少一个候选文本片段中抽取与所述属性匹配的文本信息。

3.根据权利要求2所述的方法，其中，所述基于所述待处理的文本和所述属性列表中的各所述属性，采用所述文本信息抽取模型，从所述待处理的文本中筛选出各所述属性对应的至少一个候选文本片段，包括：

采用所述文本信息抽取模型对所述待处理文本进行切分，得到数个文本片段；

基于所述数个文本片段以及所述属性列表中的各所述属性，采用所述文本信息抽取模型从所述数个文本片段中筛选各所述属性对应的所述至少一个候选文本片段。

4.根据权利要求3所述的方法，其中，所述基于所述数个文本片段以及所述属性列表中的各所述属性，采用所述文本信息抽取模型从所述数个文本片段中筛选各所述属性对应的所述至少一个候选文本片段，包括：

采用所述文本信息抽取模型获取所述数个文本片段中各所述文本片段的特征表达；

采用所述文本信息抽取模型获取各所述属性的特征表达；

基于各所述文本片段的特征表达和各所述属性的特征表达，采用所述文本信息抽取模型从所述数个文本片段中分别筛选特征表达与各所述属性的特征表达相似的所述至少一个候选文本片段。

5.根据权利要求3所述的方法，其中，所述采用所述文本信息抽取模型获取所述待处理文本中的数个文本片段，包括：

根据预设的分隔符列表，采用所述文本信息抽取模型对所述待处理文本进行切分处理，得到所述数个文本片段。

6.根据权利要求2-5任一所述的方法，其中，对于各所述属性以及所述属性对应的所述至少一个候选文本片段，采用所述文本信息抽取模型，从所述至少一个候选文本片段中抽取与所述属性匹配的文本信息，包括：

对于各所述属性及所述属性对应的各所述候选文本片段，采用所述文本信息抽取模型获取所述候选文本片段中各词块的特征表达；

根据所述候选文本片段中各所述词块的特征表达，采用所述文本信息抽取模型计算各所述词块属于所述属性的预测分值和不属于所述属性的预测分值；

根据所述候选文本片段中各所述词块属于所述属性的预测分值、不属于所述属性的预测分值和预设分值阈值，采用所述文本信息抽取模型从所述候选文本片段中抽取属于所述属性的文本信息。

7.根据权利要求6所述的方法，其中，所述根据所述候选文本片段中各所述词块属于所述属性的预测分值、不属于所述属性的预测分值和预设分值阈值，采用所述文本信息抽取模型从所述候选文本片段中抽取属于所述属性的文本信息，包括：

根据所述候选文本片段中各所述词块属于所述属性的预测分值和不属于所述属性的预测分值，采用所述文本信息抽取模型获取所述候选文本片段中的属于所述属性的预测分值大于不属于所述属性的预测分值的至少一个连续词块片段；

根据所述至少一个连续词块片段的各所述连续词块片段中各所述词块的属于所述属性的预测分值，采用所述文本信息抽取模型计算所述连续词块片段属于所述属性的预测分值；

基于所述候选文本片段中的各所述连续词块片段属于所述属性的预测分值和所述预设分值阈值，采用所述文本信息抽取模型从所述至少一个连续词块片段中抽取属于所述属性的文本信息。

8.一种文本信息的抽取装置，其中所述装置包括：

获取模块，用于获取待处理的文本和预设的属性列表；

9.根据权利要求8所述的装置，其中，所述文本信息抽取模块，包括：

筛选单元，用于基于所述待处理的文本和所述属性列表中的各所述属性，采用所述文本信息抽取模型从所述待处理的文本中筛选出各所述属性对应的至少一个候选文本片段；

抽取单元，用于对于各所述属性以及所述属性对应的所述至少一个候选文本片段，采用所述文本信息抽取模型，从所述至少一个候选文本片段中抽取与所述属性匹配的文本信息。

10.根据权利要求9所述的装置，其中，所述筛选单元，包括：

切分子单元，用于采用所述文本信息抽取模型对所述待处理文本进行切分，得到数个文本片段；

筛选子单元，用于基于所述数个文本片段以及所述属性列表中的各所述属性，采用所述文本信息抽取模型从所述数个文本片段中筛选各所述属性对应的所述至少一个候选文本片段。

11.根据权利要求10所述的装置，其中，所述筛选子单元，用于：

采用所述文本信息抽取模型获取各所述属性的特征表达；

12.根据权利要求10所述的装置，其中，所述切分子单元，用于：

13.根据权利要求9-12任一所述的装置，其中，所述抽取单元，包括：

特征获取子单元，用于对于各所述属性及所述属性对应的各所述候选文本片段，采用所述文本信息抽取模型获取所述候选文本片段中各词块的特征表达；

计算子单元，用于根据所述候选文本片段中各所述词块的特征表达，采用所述文本信息抽取模型计算各所述词块属于所述属性的预测分值和不属于所述属性的预测分值；

抽取子单元，用于根据所述候选文本片段中各所述词块属于所述属性的预测分值、不属于所述属性的预测分值和预设分值阈值，采用所述文本信息抽取模型从所述候选文本片段中抽取属于所述属性的文本信息。

14.根据权利要求13所述的装置，其中，所述抽取子单元，用于：

15.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。