CN114218940A

CN114218940A - 文本信息处理、模型训练方法、装置、设备及存储介质

Info

Publication number: CN114218940A
Application number: CN202111592043.XA
Authority: CN
Inventors: 李陶; 郑宇宏; 徐伟建; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-22
Anticipated expiration: 2041-12-23
Also published as: CN114218940B

Abstract

本公开提供了文本信息处理、模型训练方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及知识图谱、深度学习等人工智能技术领域领域。具体实现方案为：确定待提取信息；根据所述待提取信息和原始文本，确定待编码信息；对所述待编码信息进行编码，获得编码结果；根据所述编码结果，确定所述待提取信息在所述原始文本中对应的片段。本实施例能够对文本信息进行准确提取，为文本标注等工作提供便利。

Description

文本信息处理、模型训练方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及知识图谱、深度学习等人工智能技术领域。

背景技术

随着计算机技术的发展，计算机技术处理语言信息、文本信息也得到了越来越好的效果。

在一些与文本处理相关的技术中，如自然语言处理模型的训练、机器阅读等，需要对给定的原始文本进行相关信息的提取等处理，使得处理后的文本能够满足后续文本处理应用的相关需求。因此，需要对文本处理技术进行改进，使得文本处理结果能够满足文本处理技术应用的条件，进而产生更好的应用效果。

发明内容

本公开提供了一种文本信息处理、模型训练方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种文本信息处理方法，包括：

确定待提取信息；

根据待提取信息和原始文本，确定待编码信息；

对待编码信息进行编码，获得编码结果；

根据编码结果，确定待提取信息在原始文本中对应的片段。

根据本公开的另一方面，提供了一种模型训练方法，包括：

确定待提取信息；

根据待提取信息和原始文本，确定待编码信息；

将待编码信息输入待训练的文本处理模型，获得输出结果；

根据输出结果，以及待提取信息在原始文本中对应的片段的参考位置，对待训练的文本处理模型进行优化，获得训练后的文本处理模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，根据待提取信息和原始文本，对原始文本中与待提取信息相关或者对应的段落进行提取，从而能够获取需要获取的文字或语句内容，进而能够利用原始文本和与待提取信息对应的片段进行模型训练、训练语料标注等其它的文本处理相关操作。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的文本处理方法示意图；

图2是根据本公开另一实施例的文本处理方法示意图；

图3是根据本公开又一实施例的文本处理方法示意图；

图4是根据本公开又一实施例的模型训练方法示意图；

图5是根据本公开一示例的模型训练方法示意图；

图6是根据本公开一示例的原始文本标注示意图；

图7是根据本公开一示例的原始文本标注另一示意图；

图8是根据本公开一示例的模型信息处理示意图；

图9是根据本公开另一实施例的文本信息处理装置示意图；

图10是根据本公开又一实施例的文本信息处理装置示意图；

图11是根据本公开又一实施例的文本信息处理装置示意图；

图12是根据本公开又一实施例的文本信息处理装置示意图；

图13是根据本公开又一实施例的文本信息处理装置示意图；

图14是根据本公开又一实施例的文本信息处理装置示意图；

图15是根据本公开又一实施例的文本信息处理装置示意图；

图16是根据本公开实施例提供的用于执行本公开示例的文本信息处理方法的电子设备示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例首先提供一种文本信息处理方法，如图1所示，包括：

步骤S11：确定待提取信息；

步骤S12：根据待提取信息和原始文本，确定待编码信息；

步骤S13：对待编码信息进行编码，获得编码结果；

步骤S14：根据编码结果，确定待提取信息在原始文本中对应的片段。

本实施例中，待提取信息可以是待提取的文本的简要信息、待提取的文本信息、待提取的多个词语的总结信息、待提取的具体词语等等。比如，若希望提取词语A、B、C相关的信息，则待提取信息可包括词语A、B、C，或者待提取信息可以是对词语A、B、C进行总结、概括后获得的词语。若希望提取语句D的相关信息，则待提取信息可以包括语句D，或者待提取信息可以包括对语句D进行同义、近义扩展后得到的语句。

再如，若希望提取的词语为某技术领域的英文首字母缩写，则待提取信息可以包括英文首字母缩写、英文全称、至少一种中文的含义表达等中的至少一种。

在一种可能的实现方式中，待提取信息可以是文本、或者文本生成的其它类别的信息。

根据待提取信息和原始文本，确定待编码信息，可以是对待提取信息和原始文本进行编码，得到待编码信息，使得待编码信息中包括关于待提取信息的信息和原始文本的信息。

根据待提取信息和原始文本，确定待编码信息，也可以是直接将待提取信息和原始文本作为待编码信息。

在另一种可能的实现方式中，根据待提取信息和原始文本，确定待编码信息，还可以是对待提取信息和原始文本进行一定的改动，生成待编码信息。比如，将待提取信息和原始文本进行直接结合，得到待编码信息。

在一种实现方式中，待编码信息也可以是文字或非文字信息。

待提取信息在原始文本中对应的片段，可以是待提取信息在原始文本中对应的至少一个文字或文字与标点符号的组合。具体还可以是包含待提取信息的至少一个语句或文字、与待提取信息含义基本等同的至少一个语句或文字、与待提取信息相关的至少一个语句或文字，等等。

本实施例中，根据编码结果，确定待提取信息在原始文本中对应的片段，可以是根据编码结果确定待提取信息在原始文本中对应的片段的位置，即，确定待提取信息在原始文本中对应的片段的起止位置。根据编码结果，确定待提取信息在原始文本中对应的片段，还可以是根据编码结果，在原始文本中提取出与待提取信息对应的片段。

本实施例中，根据待提取信息和原始文本，对原始文本中与待提取信息相关或者对应的段落进行提取，从而能够获取需要获取的文字或语句内容，进而能够利用原始文本和与待提取信息对应的片段进行模型训练、训练语料标注等其它的文本处理相关操作。

在一种实施方式中，在待提取信息包括至少一个需要提取的词语组合的情况下，确定待提取信息，包括：

根据预设的映射关系，将词语组合中的每个单位文本映射为第一待编码向量；

将第一待编码向量作为待提取信息。

本实施例中，预设的映射关系可以是文字与编码的映射关系。本实施例中的文字可以为中文、英文等多种语言的文本。

词语组合中的每个单位文本，可以是词语组合中的词，也可以是词语组合中的单独文字。比如，在原始文本为中文的情况下，词语组合中可以至少包括一个单位文本，即，若单位文本为词语，则词语组合可以包括至少一个词语。若单位文本为文字，则词语组合可以包括至少一个文字。

在一种可能的实现方式中，将词语组合中的每个单位文本映射为第一待编码向量，得到词语组合中所有单位文本的第一编码向量构成的矩阵。

将第一待编码向量作为待提取信息，可以是将所有单位文本的第一待编码向量作为待提取信息。

本实施例中，按照单位文本获取多个第一待编码向量，将多个第一待编码向量作为待提取信息，从而能够以向量的方式，表达待提取信息，使得能够根据待编码向量确定原始文本中的对应片段。

在一种实施方式中，根据待提取信息和原始文本，确定待编码信息，包括：

根据预设的映射关系，将原始文本中的每个单位文本映射为第二待编码向量；

根据第一待编码向量和第二待编码向量，确定待编码信息。

本实施例中，原始文本中的单位文本的单位，可以和词语组合中的单位文本的单位有所不同。

将原始文本中的每个单位文本映射为第二待编码向量，可以是将原始文本中的每个单位文本映射为第二编码向量，将原始文本中的所有单位文本作为一个矩阵。

根据第一待编码向量和第二待编码向量，确定待编码信息，可以是将第一待编码向量和第二待编码向量拼接，将拼接后的向量作为待编码信息。还可以是将第一待编码向量和第二待编码向量以包含矩阵分隔符的方式简单叠加，将叠加后的矩阵作为待编码信息。

本实施例中，分别将词语组合和原始文本进行编码，得到各自对应的编码向量，根据编码向量确定待编码信息，从而将文本表达转换为更容易处理的数字表达，同时能够在数字表达中体现文本的含义。

在一种实施方式中，根据第一待编码向量和第二待编码向量，确定待编码信息，如图2所示，包括：

步骤S21：将第一待编码向量和第二待编码向量进行衔接，得到第一衔接向量；

步骤S22：按照设定的分隔规则，在第一衔接向量中插入分隔符，将包含分隔符的第一衔接向量作为第二衔接向量；

步骤S23：将第二衔接向量作为编码信息。

将第一待编码向量和第二待编码向量进行衔接，可以是将第一待编码向量和第二待编码向量进行向量的拼接，也可以是将第一待编码向量和第二待编码向量以包含矩阵分隔符的方式简单叠加。

比如，第一待编码向量包括：[a1 a2 a3][b1 b2 b3 b4 b5]，则待编码向量可以是将第一待编码向量和第二待编码向量拼接所得到的拼接后的向量：[a1 a2 a3b1 b2 b3 b4b5]。待编码向量还可以是将第一待编码向量和第二待编码向量以包含矩阵分隔符的方式简单叠加所得到的叠加后的向量或矩阵：[a1 a2 a3][b1 b2 b3 b4 b5]，或者[a1 a2 a3|b1 b2 b3 b4 b5]。

本实施例中，按照设定的分隔规则，在衔接向量中，插入分隔符，可以是在不同的待编码信息之间插入第一分隔符。不同的待编码信息，可以是含义不同的待编码信息，比如，不同含义的词语、词语组。

具体例如，需要在原始文本中提取与金融行业的词语A对应的片段，提取与医疗行业的词语B对应的片段，则可在A对应的第一待编码向量和B对应的第一待编码向量之间插入第一分隔符。

第一分隔符可以是不同于第一或第二待编码向量的数字、字母、符号等，也可以是不同于第一或第二待编码向量的数字、字母、符号等的两种以上的组合。

按照设定的分隔规则，在衔接向量中，插入分隔符，可以是第一待编码向量和第二待编码向量之间插入第二分隔符。

比如，第二分隔符可以是不同于第一或第二待编码向量的数字、字母、符号等，也可以是不同于第一或第二待编码向量的数字、字母、符号等的两种以上的组合。

在另一种可能的实现方式中，多个不同的待提取信息对应的第一待编码向量之间设置第三分隔符。第三分隔符的内容可以与第一分隔符、第二分隔符类似。

本实施例中，在第一待编码向量和第二待编码向量中按照设定规则插入分隔符，从而在后续的识别过程中，能够准确确定第一待编码向量的信息和第二待编码向量的信息。

在一种实施方式中，对待编码信息进行编码，获得编码结果，如图3所示，包括：

步骤S31：将原始文本中的知识词语，转换为与第一待编码向量维度相同的知识向量；

步骤S32：根据知识向量与第二待编码向量，得到编码结果。

本实施例中，知识词语，可以是原始文本中的概念、缩写、生僻、缩略词语等词语。即，可以是任何一种需要使用文字或符号进行额外解释的词语。

知识向量可以是知识词语对应的文本向量。

根据知识向量与第二待编码向量，得到编码结果，可以是将知识向量与第二待编码向量进行拼接，得到编码结果。

本实施例中，能够在编码结果中加入词语的知识向量，从而使得编码结果中携带有知识词语的相关信息，从而最终提高获取的片段的准确性。

在一种实施方式中，根据知识向量与第二待编码子向量，得到编码结果，包括：

将知识向量与知识词语对应的第二待编码向量进行向量加运算，得到向量和；

根据向量和，得到编码结果。

本实施例中，将知识向量与知识词语对应的第二待编码子向量进行向量加运算，可以是将知识向量与知识词语对应的第二待编码子向量中的每个维度的数据进行相加，得到向量和。

比如，单位文本为字，知识词语包含3个字，知识向量包括[n1 n2 n3]，其中n1、n2、n3分别为N维列向量或者行向量。知识词语对应的第二待编码向量也为N维列向量或者行向量，则将知识词语包括的三个第二待编码向量，分别与n1、n2、n3相加，得到向量和[N1+n1N2+n2 N3+n3]，向量和继续保留在第二待编码向量组成的矩阵中，且保留于知识词语对应的第二待编码向量原有的位置。

根据向量和，得到编码结果，可以包括：对包含向量和的第二待编码向量的矩阵进行编码，得到编码结果。

本实施例中，能够对第二待编码向量进行知识向量的融合，从而使得编码结果中包含知识词语的信息，提高片段确定的准确性。

在一种实施方式中，根据编码结果，确定待提取信息在原始文本中对应的片段，包括：

将第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率；

根据概率，确定位置。

在一种可能的实现方式中，一维空间可以指只由一条线内的点所组成的空间，它只有长度，没有宽度和高度，只能向两边无限延展。一维实际是指的是一条线，在理解上即为左－右一个方向(如：时间)。一维空间也可理解为点动成线，指没有面积与体积的物体。

本实施例中，将第二待编码向量映射到一维空间，可以是将第二待编码向量转换为一维数据，比如，将向量[x1 x2 x3……xn](x1、x2、x3……xn均为数字或实数)映射为一个单独的数字，该单独的数字可以表示单位文本(字或词)为片段起始位置的概率或终止位置的概率。

在另一种实现方式中，将第二待编码向量映射到一维空间，可以是将第二待编码向量转换为一维数据，比如，将向量[x1 x2 x3……xn](x1、x2、x3……xn均为数字或实数)映射为一组数字，该组数字可以表示单位文本(字或词)为片段起始位置的概率和终止位置的概率。

根据概率，确定位置，可以是选择概率最大值作为起始位置或终止位置。

本实施例中，能够通过概率确定片段的起始位置或终止位置，从而能够将原始文本中需要提取的片段进行准确定位。

在一种实施方式中，将第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率，包括：

利用全连接层，将第二待编码向量映射到一维空间，得到映射结果；全连接层的至少部分神经元被去除；

根据映射结果，得到每个文字为起始位置和/或终止位置的概率。

至少一个神经元，可以是至少一个以上的神经元。

在一种具体实现方式中，一维空间可以是实数空间。

本实施例中，将全连接层的至少部分神经元去除后，利用全连接层将第二待编码向量映射到一维空间，从而可以避免过拟合，保证正确概率数据能够被计算出来。

本公开实施例还提供一种模型训练方法，如图4所示，包括：

步骤S41：确定待提取信息；

步骤S42：根据待提取信息和原始文本，确定待编码信息；

步骤S43：将待编码信息输入待训练的文本处理模型，获得输出结果；

步骤S44：根据输出结果，以及待提取信息在原始文本中对应的片段的参考位置，对待训练的文本处理模型进行优化，获得训练后的文本处理模型。

本公开实施例提供的文本信息处理方法，可以应用于多种场景。比如，在文本处理模型的训练场景下，能够用于对文本信息进行处理，提取出相关的片段，实现对训练语料的标注。比如，随着人工智能的发展，越来越多的机器学习或深度学习应用场景随之出现。而为了使得机器学习模型或深度学习模型具有更好的表现效果，需要使用大量的标注数据作为训练样本，对模型进行训练，使得模型学习到有用的信息。

训练模型所使用的标注数据往往是通过对原始数据进行标注而生成，但标注数据是一项枯燥无味且花费巨大的任务，所以迁移学习受到越来越多的关注。在医疗领域、金融领域等不同领域的模型训练任务中，存在对同一原始文本根据不同问题进行答案抽取的需求，且各问题之间存在因果、相关等各种关系。另外，实际开发生产实践中，标注人员难以将同一原始文本中的所有问题和答案全面标注。或者存在针对某一问题的答案在原始文本中分布比较稀疏，需要筛选文本，导致同一原始文本的一个或多个问题及答案被遗漏标注。同时，还存在某些原始文本较长，超过最大长度限制的情况，需要在原始文本标注前，对原始文本的内容进行切分。

本公开实施例提供的模型训练方法，能够为文本信息处理提供有效的模型，减少文本标注等文本处理工作的工作量，提高文本处理时，为标注等目的而提取文本片段的操作准确性。

在一种示例中，可根据抽象概念确定待提取信息，针对原始文本进行抽象概念相关的片段的获取。具体比如在医疗领域，对医疗诊断内容的原始文字，确定抽象概念，如“处理意见”、“三代家属询问(家族史，父母子女关系等)”、“传染病史”等，根据这些医学类的抽象概念，确定待提取信息。医学领域中存在大量专业知识，涉及相关的知识图谱。另外，模型在用户的设备上部署的过程中，存在性能优化需求，可使用模型蒸馏的方式提升模型预测的效率。

本公开示例在医疗、金融等领域中，可用于抽象概念的抽取，对医院病历进行语义理解相关的规范性建设，挖掘文本中的内涵信息，满足对个性化病历质量控制需求，建设更高级的病历结构。另外，本公开实施例还可用于同一模型在其它领域的横向迁移工作。

在本公开一种示例中，模型训练方法包括如图5所示的步骤，包括：

步骤S51：训练数据的标注。

本公开示例中，可以从临床病历文本中抽取部分单据、字段作为原始文本，进行标注。如“入院记录”单据的原始文本中，与待提取信息“现病史”相关字段(相当于前述实施例中的片段)。对其中某个抽象含义的句段进行标注。同一抽象概念在原始文本中可能存在多个分散的片段，标注示例如图6所示，待提取信息“现病史”可具体包括诱因、诊治经过和诊治结果的词语组合。分别在包括现病史的原始文本中，标注出诱因片段61、诊治经过片段62、诊治结果片段63。在具体实现方式中，可通过不同颜色或者不同标记对不同待提取信息进行标注。通过图6可以看出，待提取信息“现病史”下包含多个词语或词语组合：诱因、诊治经过和诊治结果。

在另一种可能的实现方式中，待提取信息“现病史”可以包括查房分析、指导诊疗意见、处理意见的词语组合，如图7所示，待提取信息中的各词语组合在原始文本中对应的片段相互重叠。

从图7可以看出，“查房记录”单据的“记录内容”字段，包含三个不同要素，而且存在重叠关系，各概念间有交叉包含关系。如：“嘱：注意休息，增加营养”、“查房分析”、“指导诊疗意见”和“处理意见”。

步骤S52：数据增强。对各要素的标注内容进行收尾的去除(负样本，删除一个要素)，增加各要素的负样本比例，减少模型对各个要素都必须有结果输出的学习倾向。

步骤S53：长数据处理。当文本长度超过了max_lenth，约为450左右，则需要进行截断。截断采用滑动窗口(按照句号、逗号，有相对完整的概念，切断窗口滑动)，产出的短文本，仅包含要素首尾的部分才允许加上相关要素(要素的首和尾)，仅包含部分(首或尾)，是不会作为训练的label产出的。

步骤S54：数据预处理，构建数据集。

对标注数据的要素首尾标注出来，作为输入，以便计算loss及预测。文本加入多个query(对应单据的要素)，以及文本对应的知识(知识，比如既往史中的手术史，概念的知识，使得模型得知概念)。知识来源于医学知识图谱，包括有“手术”、“检查”、“疾病”、“症状”等多个类别，以tensor(张量)相加的方式加到对应位置的原始文本中。

步骤S55：模型训练。

图8为本公开示例中一种模型示意图。

本示例中，如“既往史”的原始文本对应于待提取信息81的字段文本对应的片段，可能含有“手术史”、“药物过敏史”、“高血压史”等要素。则输入为：cls手术史cls(标志位)药物过敏史cls(标志位)高血压史sep(标志位)既往史原文。本示例中，标志位cls、sep可以为前述实施例中的分隔符。

经过预训练模型之后，得到的既往史原始文本特征表示和待提取信息的特征表示，即图8中的E。既往史的原始文本的特征表示，会与同一shape(形状)的知识图谱实体知识的type embedding(类型嵌入向量)相加。各要素之前的cls会包含相关要素的部分含义，将加在既往史原文和知识混合后的特征上。基于这一融合特征，通过待训练模型82中的start(开始)和end(结束)的两个全连接网络进行处理，全连接网络有2个主要层，在两个主要的全连接网络中间加入dropout层(去除层)、激活函数relu，得出某一单位文本在原文的首、尾位置的概率83。概率高于阈值的单位文本，为1，否则为0。

预训练模型采用RoBERTa模型，包含BERT模型的功能，较BERT效果更优。本公开实施例中，BERT模型，可以为Bidirectional Encoder Representation from Transformers(双向编码表示转换器)模型，可以是一个预训练的语言表征模型。BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的Masked Language Model(MLM，掩膜语言模型)，以致能生成深度的双向语言表征。本公开示例中，RoBERTa模型可以在BERT模型的基础上进行下述几个方面的调整：1)训练时间更长，batch size(批次大小)更大，训练数据更多；2)移除了next predict loss(下一预测损失)；3)训练序列更长；4)动态调整Masking(掩膜)机制。

在本公开一种示例中，对于BERT模型，在CPU(Central Processing Unit，中央处理器)上的预测速度比较慢，因为计算量和参数量大。为保证在实际应用的角度能有更好的使用效果，使用模型蒸馏方案，能够蒸馏到小模型LSTM(Long Short-Term Memory，长短期记忆网络)类似的体积，以减少计算量，减少模型预测的响应时间。

实验结果指针网络，可以解决边界问题，边界更清晰，相当于全连接，识别首尾。

本示例的实验中，针对不同的要素(待提取信息)32类进行实验，根据Trunk评估指标，抽取效果为macro宏平均(表示每个类的效果)P(表示准确率)：91.94，R(召回率)：83.81，F1(P+R)：87.69。说明本公开示例提供的文本信息处理方法具有较好的待提取信息提取的效果。

本公开实施例还提供一种文本信息处理装置，如图9所示，包括：

待提取信息模块91，用于确定待提取信息；

待编码信息模块92，用于根据待提取信息和原始文本，确定待编码信息；

编码结果模块93，用于对待编码信息进行编码，获得编码结果；

待提取片段模块94，用于根据编码结果，确定待提取信息在原始文本中对应的片段。

在一种实施方式中，在待提取信息包括至少一个需要提取的词语组合的情况下，如图10所示，待提取信息模块包括：

第一映射单元101，用于根据预设的映射关系，将词语组合中的每个单位文本映射为第一待编码向量；

第一映射结果处理单元102，用于将第一待编码向量作为待提取信息。

在一种实施方式中，如图11所示，待编码信息模块包括：

第二映射单元111，用于根据预设的映射关系，将原始文本中的每个单位文本映射为第二待编码向量；

第二映射结果处理单元112，用于根据第一待编码向量和第二待编码向量，确定待编码信息。

在一种实施方式中，第二映射结果处理单元还用于：

将第一待编码向量和第二待编码向量进行衔接，得到第一衔接向量；

按照设定的分隔规则，在第一衔接向量中插入分隔符，将包含分隔符的第一衔接向量作为第二衔接向量；

将第二衔接向量作为编码信息。

在一种实施方式中，如图12所示，编码结果模块包括：

转换单元121，用于将原始文本中的知识词语，转换为与第一待编码向量维度相同的知识向量；

知识向量处理单元122，用于根据知识向量与第二待编码向量，得到编码结果。

在一种实施方式中，知识向量处理单元还用于：

根据向量和，得到编码结果。

在一种实施方式中，如图13所示，待提取片段模块包括：

概率单元131，用于将第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率；

位置单元132，用于根据概率，确定位置。

在一种实施方式中，概率单元还用于：

本公开实施例还提供一种模型训练装置，如图14所示，包括：

待提取信息确定模块141，用于确定待提取信息；

待编码信息确定模块142，用于根据待提取信息和原始文本，确定待编码信息；

输入模块143，用于将待编码信息输入待训练的文本处理模型，获得输出结果；

训练模块144，用于根据输出结果，以及待提取信息在原始文本中对应的片段的参考位置，对待训练的文本处理模型进行优化，获得训练后的文本处理模型。

在一种实施方式中，如图15所示，输入模块包括：

第一处理结果单元151，用于利用待训练的文本处理模型的第一全连接层，根据待编码信息，输出第一处理结果；

第二处理结果单元152，用于利用待训练的文本处理模型的激活层，根据第一处理结果，输出第二处理结果；

处理单元153，用于利用待训练的文本处理模型的第二全连接层，根据第二处理结果，获得输出结果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图16示出了可以用来实施本公开的实施例的示例电子设备160的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图16所示，设备160包括计算单元161，其可以根据存储在只读存储器(ROM)162中的计算机程序或者从存储单元168加载到随机访问存储器(RAM)163中的计算机程序，来执行各种适当的动作和处理。在RAM 163中，还可存储设备160操作所需的各种程序和数据。计算单元161、ROM 162以及RAM 163通过总线164彼此相连。输入/输出(I/O)接口165也连接至总线164。

设备160中的多个部件连接至I/O接口165，包括：输入单元166，例如键盘、鼠标等；输出单元167，例如各种类型的显示器、扬声器等；存储单元168，例如磁盘、光盘等；以及通信单元169，例如网卡、调制解调器、无线通信收发机等。通信单元169允许设备160通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元161可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元161的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元161执行上文所描述的各个方法和处理，例如文本信息处理方法。例如，在一些实施例中，文本信息处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元168。在一些实施例中，计算机程序的部分或者全部可以经由ROM 162和/或通信单元169而被载入和/或安装到设备160上。当计算机程序加载到RAM 163并由计算单元161执行时，可以执行上文描述的文本信息处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元161可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本信息处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本信息处理方法，包括：

确定待提取信息；

根据所述待提取信息和原始文本，确定待编码信息；

对所述待编码信息进行编码，获得编码结果；

根据所述编码结果，确定所述待提取信息在所述原始文本中对应的片段。

2.根据权利要求1所述的方法，其中，在所述待提取信息包括至少一个需要提取的词语组合的情况下，所述确定待提取信息，包括：

根据预设的映射关系，将所述词语组合中的每个单位文本映射为第一待编码向量；

将所述第一待编码向量作为所述待提取信息。

3.根据权利要求2所述的方法，其中，所述根据所述待提取信息和原始文本，确定待编码信息，包括：

根据所述第一待编码向量和所述第二待编码向量，确定所述待编码信息。

4.根据权利要求3所述的方法，其中，所述根据所述第一待编码向量和所述第二待编码向量，确定所述待编码信息，包括：

将所述第一待编码向量和所述第二待编码向量进行衔接，得到第一衔接向量；

按照设定的分隔规则，在所述第一衔接向量中插入分隔符，将包含分隔符的第一衔接向量作为第二衔接向量；

将所述第二衔接向量作为所述编码信息。

5.根据权利要求2-4中任意一项所述的方法，其中，所述对所述待编码信息进行编码，获得编码结果，包括：

将所述原始文本中的知识词语，转换为与所述第一待编码向量维度相同的知识向量；

根据所述知识向量与所述第二待编码向量，得到所述编码结果。

6.根据权利要求5所述的方法，其中，所述根据所述知识向量与所述第二待编码向量，得到所述编码结果，包括：

将所述知识向量，与所述知识词语对应的所述第二待编码向量进行向量加运算，得到向量和；

根据所述向量和，得到所述编码结果。

7.根据权利要求2-6中任意一项所述的方法，其中，所述根据所述编码结果，确定所述待提取信息在所述原始文本中对应的片段，包括：

将所述第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率；

根据所述概率，确定所述位置。

8.根据权利要求7所述的方法，其中，所述将所述第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率，包括：

利用全连接层，将所述第二待编码向量映射到一维空间，得到映射结果；所述全连接层的至少部分神经元被去除；

根据所述映射结果，得到所述每个文字为起始位置和/或终止位置的概率。

9.一种模型训练方法，包括：

确定待提取信息；

根据所述待提取信息和原始文本，确定待编码信息；

将所述待编码信息输入待训练的文本处理模型，获得输出结果；

根据所述输出结果，以及所述待提取信息在所述原始文本中对应的片段的参考位置，对所述待训练的文本处理模型进行优化，获得训练后的文本处理模型。

10.根据权利要求9所述的方法，其中，所述将所述待编码信息输入待训练的文本处理模型，获得输出结果，包括：

利用所述待训练的文本处理模型的第一全连接层，根据所述待编码信息，输出第一处理结果；

利用所述待训练的文本处理模型的激活层，根据所述第一处理结果，输出第二处理结果；

利用所述待训练的文本处理模型的第二全连接层，根据所述第二处理结果，获得所述输出结果。

11.一种文本信息处理装置，包括：

待提取信息模块，用于确定待提取信息；

待编码信息模块，用于根据所述待提取信息和原始文本，确定待编码信息；

编码结果模块，用于对所述待编码信息进行编码，获得编码结果；

待提取片段模块，用于根据所述编码结果，确定所述待提取信息在所述原始文本中对应的片段。

12.根据权利要求11所述的装置，其中，在所述待提取信息包括至少一个需要提取的词语组合的情况下，所述待提取信息模块包括：

第一映射单元，用于根据预设的映射关系，将所述词语组合中的每个单位文本映射为第一待编码向量；

第一映射结果处理单元，用于将所述第一待编码向量作为所述待提取信息。

13.根据权利要求12所述的装置，其中，所述待编码信息模块包括：

第二映射单元，用于根据预设的映射关系，将原始文本中的每个单位文本映射为第二待编码向量；

第二映射结果处理单元，用于根据所述第一待编码向量和所述第二待编码向量，确定所述待编码信息。

14.根据权利要求13所述的装置，其中，所述第二映射结果处理单元还用于：

按照设定的分隔规则，在所述第一衔接向量中插入分隔符，将包含所述分隔符的第一衔接向量作为第二衔接向量；

将所述第二衔接向量作为所述编码信息。

15.根据权利要求12-14中任意一项所述的装置，其中，所述编码结果模块包括：

转换单元，用于将所述原始文本中的知识词语，转换为与所述第一待编码向量维度相同的知识向量；

知识向量处理单元，用于根据所述知识向量与所述第二待编码向量，得到所述编码结果。

16.根据权利要求15所述的装置，其中，所述知识向量处理单元还用于：

根据所述向量和，得到所述编码结果。

17.根据权利要求12-16中任意一项所述的装置，其中，所述待提取片段模块包括：

概率单元，用于将所述第二待编码向量映射到一维空间，得到每个文字为起始位置和/或终止位置的概率；

位置单元，用于根据所述概率，确定所述位置。

18.根据权利要求17所述的装置，其中，所述概率单元还用于：

19.一种模型训练装置，包括：

待提取信息确定模块，用于确定待提取信息；

待编码信息确定模块，用于根据所述待提取信息和原始文本，确定待编码信息；

输入模块，用于将所述待编码信息输入待训练的文本处理模型，获得输出结果；

训练模块，用于根据所述输出结果，以及所述待提取信息在所述原始文本中对应的片段的参考位置，对所述待训练的文本处理模型进行优化，获得训练后的文本处理模型。

20.根据权利要求19所述的装置，其中，所述输入模块包括：

第一处理结果单元，用于利用所述待训练的文本处理模型的第一全连接层，根据所述待编码信息，输出第一处理结果；

第二处理结果单元，用于利用所述待训练的文本处理模型的激活层，根据所述第一处理结果，输出第二处理结果；

处理单元，用于利用所述待训练的文本处理模型的第二全连接层，根据所述第二处理结果，获得所述输出结果。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。