CN112069311A

CN112069311A - 一种文本提取方法、装置、设备及介质

Info

Publication number: CN112069311A
Application number: CN202010773751.2A
Authority: CN
Inventors: 游程; 陈孝良; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-11
Anticipated expiration: 2040-08-04
Also published as: CN112069311B

Abstract

本发明关于一种文本提取方法、装置、设备及介质，用以确定在文本中关于属性的评价文本，有助于提升确定属性的评价态度准确率，节约训练成本。所述方法包括：获取目标场景的目标文本，所述目标场景对应预设数量个场景属性；利用预先训练的位置确定模型确定场景属性对应的属性评价文本在所述目标文本中的位置，所述位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；根据所述场景属性对应的属性评价文本在所述目标文本中的位置，提取场景属性对应的属性评论文本。

Description

一种文本提取方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文本提取方法、装置、设备及介质。

背景技术

目前，评论分析时自然语言处理领域的热门问题。评论分析的目的是从用户评论文本中抽取多个属性的态度评价。通常用户的评论文本是较长文本(由多个语句构成的评论文本)，并且会包含多个属性的评价文本，通过属性的评价文本可以确定用户对该属性的评价态度。现有技术通过分类模型确定出的一个属性评价态度的分类，会对确定其他属性评价态度的分类产生影响。例如，一个关于酒店评论文本“这个酒店装修不错位置一般我找了半天才找到，早餐还是挺好吃的，但是价格贼贵”。其中，“不错”是一个积极评价态度，若分类模型确定属性“位置”的评价态度为积极评价态度，则影响了属性“装修”的评价态度。

若在分类模型进行对属性的评价态度分类之前，利用序列标注模型先确定文本中包含哪些属性的评价态度，然后将确定的属性输入到该属性对应的分类模型中确定文本关于该属性的态度评价，这将需要大量的被标注出每种属性的文本作为训练序列标注模型，也意味着需要大量的标注成本，另外还需要针对每种属性分别训练各属性对应的分类模型，增加了训练成本和训练时间。

因此，亟需一种能够确定属性在文本中对应的属性评价文本的解决方案，以提高确定属性评价态度的准确率。

发明内容

本发明提供一种文本提取方法、装置、设备及介质，用以确定在文本中关于属性的评价文本，有助于提升确定属性的评价态度准确率，节约训练成本。

第一方面，本发明实施例提供一种文本提取方法，方法包括：

获取目标场景的目标文本，目标场景对应预设数量个场景属性；

利用预先训练的位置确定模型确定场景属性对应的属性评价文本在目标文本中的位置，位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；

根据场景属性对应的属性评价文本在目标文本中的位置，提取场景属性对应的属性评论文本。

本发明实施例提供的文本提取方法，通过预先训练的位置确定模型，可以确定场景属性与目标文本之间的文本关联关系，还可以确定场景属性对应的属性评价文本在目标文本中的位置，并提取出场景属性对应的属性评价文本，基于场景属性与目标文本之间的文本关系，确定场景属性对应的属性评价文本在目标文本中的位置，有助于提升确定场景属性对应属性评价文本在目标文本中位置的准确率。由于确定出场景属性对应的属性评价文本，在根据场景属性对应的属性评价文本确定场景属性的属性评价态度时的准确率高于现有技术中根据目标文本确定场景属性的属性评价态度时的准确率。并且，无需训练多个不同场景属性的位置确定模型，节约了训练成本，缩短确定场景属性对应属性评价文本的处理过程。通过一个位置确定模型可以确定目标场景中多个场景属性的属性评价态度，位置确定模型具有更精细的处理能力，提升位置确定模型处理效率。

一种可能的实施方式中，本发明实施例提供的文本提取方法中，位置确定模型，采用如下步骤训练：

以目标场景的第一文本样本、设置的第一文本样本的场景属性标记、设置的场景属性对应的属性评论文本在第一文本样本中的位置，作为关系确定模型的输入，以场景属性对应的属性评论文本在第一文本样本中的位置作为关系确定模型的输出，对关系确定模型进行训练，将训练后的关系确定模型作为位置确定模型。

本发明实施例提供的文本提取方法，通过被标记场景属性以及场景属性对应属性评论文本在第一文本中的位置的第一文本样本训练关系确定模型，训练后得到位置确定模型，无需针对每一个场景属性训练该场景属性对应的位置确定模型，使得训练后的位置确定模型具有确定多个场景属性各自对应的属性评论文本在目标文本中位置的能力，无需训练多个不同场景属性的位置确定模型，节约了训练成本。

一种可能的实施方式中，本发明实施例提供的文本提取方法中，关系确定模型，采用如下步骤确定：

将包含多个第二样本的第二样本集合，以及设置的第二样本集合中任意两个第二文本样本之间的文本关联关系作为输入，将第二样本集合中任意两个第二文本样本之间的文本关联关系作为输出，对第一神经网络模型进行训练，使文本关系确定准确率大于第一预设准确率；

将训练后的第一神经网络模型确定为关系确定模型；

其中，第一文本样本数量与第二文本样本数量的比值小于第一数值。

本发明实施例提供的文本提取方法，利用无标注的第二文本样本训练关系确定模型，使得关系确定模型具有确定文本关联关系的能力。并且，被标注的第一文本样本数量小于第二文本样本数量，用少量被标注样本训练位置确定模型，节约了标注样本成本。

一种可能的实施方式中，本发明实施例提供的文本提取方法中，将训练后的第一神经网络模型确定为关系确定模型之前，方法还包括：

从第三文本样本集合中选取多个第三文本，并删除选取的第三文本中的至少一部分内容，将包含删除部分内容的第三文本的第三文本样本集合作为第一神经网络模型的输入，并将第三文本作为输出，对第一神经网络模型进行训练，使文本填充准确率大于第二预设准确率；

其中，第一文本样本数量与第二文本样本数量以及第三样本数量总和的比值小于第二数值。

本发明实施例提供的文本提取方法，利用无标注的第三文本样本训练关系确定模型，使得关系确定模型具有确定文本缺字填充的能力，提更了关系确定模型文本语义确定能力。并且，被标注的第一文本样本数量小于第二文本样本以及第三样本数量总和，用大量无标注样本训练关系确定模型，用少量被标注样本训练位置确定模型，节约了标注样本成本。

一种可能的实施方式中，本发明实施例提供的文本提取方法，还包括：

将属性评论文本输入到属性评价模型中，利用属性评价模型确定属性评论文本的属性评价信息类别。

本发明实施例提供的文本提取方法，利用属性评价模型确定提取的属性评论文本的属性评价信息类别，属性评价信息类别可以反映出目标文本所属用户对该场景属性的态度倾向，提升利用属性评论文本确定场景属性的态度倾向准确度。

利用预设属性评价信息与属性评价信息类别的对应关系，确定所述属性评论文本对应的属性评价信息。

本发明实施例提供的文本提取方法，利用确定出的属性评价信息类别，确定出场景属性的属性评价信息，提升了利用属性评价文本确定场景属性的属性评价信息准确度，避免了确定某一场景属性的属性评价信息影响确定其它场景属性的属性评价信息的情况。

第二方面，本发明实施例提供一种文本提取装置，装置包括：

获取单元，用于获取目标场景的目标文本，目标场景对应预设数量个场景属性；

处理单元，用于利用预先训练的位置确定模型确定场景属性对应的属性评价文本在目标文本中的位置，位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；

提取单元，用于根据场景属性对应的属性评价文本在目标文本中的位置，提取场景属性对应的属性评论文本。

一种可能的实施方式中，本发明实施例提供一种文本提取装置中，处理单元具体用于：

采用如下步骤训练位置确定模型：

采用如下步骤确定关系确定模型：

将训练后的第一神经网络模型确定为关系确定模型；

一种可能的实施方式中，本发明实施例提供一种文本提取装置中，处理单元还用于：

将训练后的第一神经网络模型确定为关系确定模型之前，从第三文本样本集合中选取多个第三文本，并删除选取的第三文本中的至少一部分内容，将包含删除部分内容的第三文本的第三文本样本集合作为第一神经网络模型的输入，并将第三文本作为输出，对第一神经网络模型进行训练，使文本填充准确率大于第二预设准确率；

一种可能的实施方式中，本发明实施例提供一种文本提取装置，还包括：

确定单元，用于将属性评论文本输入到属性评价模型中，利用属性评价模型确定属性评论文本的属性评价信息类别。

一种可能的实施方式中，本发明实施例提供一种文本提取装置中，确定单元还用于利用预设属性评价信息与属性评价信息类别的对应关系，确定所述属性评论文本对应的属性评价信息。

第三方面，本发明实施例提供一种文本提取设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现第一方面中任一项的文本提取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，当存储介质中的指令由文本提取设备的执行器执行时，使得文本提取设备能够执行第一方面中任一项的文本提取方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1是根据一示例性实施例示出的一种文本提取方法的示意流程图；

图2是根据一示例性实施例示出的一种位置确定模型确定方法的示意流程图；

图3是根据一示例性实施例示出的一种文本提取方法的示意流程图；

图4是根据一示例性实施例示出的一种文本提取装置的结构示意图；

图5是根据一示例性实施例示出的一种文本提取设备的结构示意图；

图6是根据一示例性实施例示出的一种文本提取终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在文本评论场景中，通常围绕某个商品或者事件进行评论。通过评论文本可以确定用户对商品或者事件的情感倾向(正面、中立、负面等态度)。例如，对酒店评论的场景、旅游线路评论的场景。从评论文本中可以确定对商品或事件的综合评价(情感倾向)，也可以确定对商品或事件的某一方面的评价(情感倾向)，也即多角度的评价。其中，角度可以是商品或事件的某一属性。例如，在有关酒店评论的场景中，预先设置的场景属性可以是装修、餐饮、位置、价格等。在有关旅游线路评论的场景中，预先设置的场景属性可以是景点、住宿、舒适度等。

在确定用户对酒店的属性“装修”的情感倾向时，一般基于完整的酒店评论文本，直接将酒店评论文本输入预先训练的分类模型，输出多个场景属性的属性评价(情感倾向)，例如，装修不错、位置不错、餐饮一般等，对不同场景属性的属性评价分类过程中，由于基于同一酒店评论文本确定多个属性的属性评价，不同属性的属性评价之间互相影响。例如，“这个酒店装修不错位置一般我找了半天才找到，早餐还是挺好吃的，但是价格贼贵”。其中分类模型确定属性“位置”的评价态度为正面评价，则影响了属性“装修”的评价。

为了消除不同属性的属性评价之间互相影响，可以先确定酒店评论文本中是否有属性“装修”，若包含则将完整的酒店评论文本输入属性“装修”的分类模型，确定用户对属性“装修”的情感倾向。此种方法中，可以提升确定场景属性的评价准确率，但是需要针对为酒店的每一个属性都预先训练一个分类模型。训练成本多大，并且需要更多的计算资源以存储多个场景属性的分类模型。

有鉴于此，本发明实施例提供一种文本提取方法，从评论文本中提取出场景属性的属性评论文本，也即从评论文本中确定出用户针对不同属性的属性评论文本，基于属性的属性评论文本确定属性的属性评价，极大提升属性评价的确定准确率，并且，不同属性的属性评价是独立的，避免了不同属性的属性评价互相影响的情况。

图1根据一示例性实施例示出的一种文本提取方法示意流程图，如图1所示，本发明实施例提供的文本提取方法，可以包括如下步骤：

步骤S101，获取目标场景的目标文本，目标场景对应预设数量个场景属性。

具体实施时，目标场景可以是有关任意商品，事件评论的场景，也可以是有关酒店评论的场景，还可以是有关旅游线路评论的场景。不同的场景还预先设置有相应的场景属性。例如，在有关酒店评论的场景中，预先设置的场景属性可以是装修、餐饮、位置、价格等。目标文本为目标账户所属用户对目标场景的评论文本。目标文本可以反映出目标账户所属用户对目标场景各个场景属性的评价情况。

需要说明的是，目标场景还可以是某书籍，目标文本是书籍中的任意段落或者语句，场景属性可以是某个事物或人物，通过本发明实施例提供的文本提取方法，可以确定书籍中任一目标文本关于事物或人物描述文本在目标文本中的位置。例如，目标文本为“我叫小明妈妈是一个优雅的女人爸爸是一位优秀的科学家”，场景属性可以设置为“我”、“妈妈”、“爸爸”。关于场景属性“我”的属性评价文本为“我叫小明”，场景属性“妈妈”的属性评价文本为“妈妈是一个优雅的女人”，场景属性“爸爸”的属性评价文本为“爸爸是一位优秀的科学家”。

步骤S102，利用预先训练的位置确定模型确定场景属性对应的属性评价文本在目标文本中的位置，位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的。

具体实施时，位置确定模型可以确定出场景属性对应的属性评价文本在目标文本中的位置。将目标文本和场景属性输入位置确定模型之前，可以将目标文本和场景属性预先处理为如下格式：[CLS]目标文本[SEP]场景属性[SEP]，目标文本可以一个语句文本，也可以是多个语句文本。其中，[CLS]符号为分类(classification，CLS)符号或者也可以成为分离符号，用于分隔样本。将分离符号插入在目标文本之前，使模型可以区分不同的目标文本。[SEP]为分隔(separate，SEP)符号，用于在一个样本中分隔不同文本。

例如，在有关酒店评论的场景中，可以从酒店评论网页中或者酒店管理后台中获取用户对酒店的评论文本作为目标文本，如目标文本可以是“这个酒店装修不错位置一般我找了半天才找到”。预设的酒店评论场景中的场景属性可以是“位置”、“装修”、“餐饮”、“价格”等。按照上述格式对将目标文本和场景属性进行预处理，可以生成[CLS]这个酒店装修不错位置一般我找了半天才找到[SEP]位置[SEP]、[CLS]这个酒店装修不错位置一般我找了半天才找到[SEP]餐饮[SEP]、[CLS]这个酒店装修不错位置一般我找了半天才找到[SEP]价格[SEP]、[CLS]这个酒店装修不错位置一般我找了半天才找到[SEP]装修[SEP]等多条输入数据。

位置确定模型可以根据[CLS]符号，区分两条输入数据。位置确定模型可以根据一条输入数据中的[SEP]区分该条输入数据中的两个文本(目标文本以及场景属性)。位置确定模型可以输出第二个文本在第一个文本中的起始位置和结束位置，换句话说位置确定模型可以输出场景属性在目标文本中的起始位置和结束位置。例如，目标文本总长度为6，输出的起始位置为010000，反映出场景属性对应的属性评价文本的第一个字的位置对应目标文本第二个字的位置，输出的结束位置为000010，反映出场景属性对应的属性评价文本最后一个字的位置对应目标文本中第五个字的位置。例如，[CLS]这个酒店装修不错位置一般我找了半天才找到[SEP]位置[SEP]。输出场景属性“位置”对应的属性评价文本的起始位置为00000000100000000000，结束位置为00000000000100000000，输出场景属性“位置”对应的属性评价文本的位置可记录为00000000100100000000。

在实际应用场景中，训练位置确定模型时，可以采用如下步骤训练：

具体实施时，预先设置目标场景的第一文本样本的场景属性标记，以及场景属性标记对应的属性评论文本在第一文本样本中的位置，将被标记的第一文本样本作为训练样本，输入预先确定的关系确定模型中，并输出场景属性标记对应的属性评论文本在第一文本样本中的位置进行位置确定关系模型的训练。可以在训练位置确定关系模型过程中，调整训练参数，直至确定位置关系的准确率大于预设准确率阈值时，结束训练。

在实际应用场景中，关系确定模型，可以采用如下步骤确定：

将训练后的第一神经网络模型确定为关系确定模型；

其中，第一文本样本数量与第二文本样本数量的比值大于第一数值。

具体实施时，无场景属性标注的第二样本集合中任两个第二文本样本的文本关联关系是确定的。若两个第二文本样本为属于同一评论文并具有前后句关系，反映出这两个第二文本样本是具有文本关联关系，若两个第二文本样本属于不同评论文本或者为同一评论文件但不具有非前后句关系，反映出这两个第二本文样本是不具有文本关联关系。具有文本关联关系可以表征，两个文本的语义相同并且具有语义顺序关系。不具有文本关联关系可以表征，两个文本的语义不同，没有语义顺序关系。

从第二样本集合中任意选择两个第二文本样本输入第一神经网络模型中，同时也将这两个第二文本样本之间的文本关联关系输入第一神经网络模型中，对神经网络模型进行训练。通常，第一神经网络模型可以是基于Transformer模型的双向编码器(Bidirectional Encoder Representations from Transformers，bert)模型。

将任意两个第二文本样本输入第一神经网络模型之前，需要按照预定格式进行预处理，例如处理为如下格式：[CLS]第二文本样本1[SEP]第二文本样本2[SEP]。对第一神经网络模型进行训练，以输出两个第二文本样本之间的文本关联关系作为训练任务，当文本关系确定准确率大于第一预设准确率(可以根据实际应用场景配置)时，完成对第一神经网络模型的训练，将训练后的第一神经网络模型作为关系确定模型。

需要说明的是，训练关系确定模型使用的无标注的第二文本样本数量远大于训练位置确定模型使用的有标注的第一文本样本数量，例如，第一文本样本数量与第二文本样本数量的比值小于第一数值，可以根据不同应用场景配置不同的第一数值，第一数值可以是百万分之一。本发明实施例中的文本提取方法使用较少的标注文本样本训练位置确定模型。本领域技术人员应到知晓使用更多的有标注的第一文本样本训练位置确定模型时，生成的模型具有更优的性能。

另外，还可以继续通过其他训练任务训练第一神经网络模型。例如，从第三文本样本集合中选取多个第三文本，并删除选取的第三文本中的至少一部分内容，将包含删除部分内容的第三文本的第三文本样本集合作为第一神经网络模型的输入，并将第三文本作为输出，对第一神经网络模型进行训练，使文本填充准确率大于第二预设准确率。

其中，第一文本样本数量与第二文本样本数量以及第三样本数量总和的比值大于第二数值。

具体实施时，可以在训练两个第二文本样本之间的文本关联关系作为训练任务之前或者之后，训练第一神经网络模型进行文本填充训练任务。无场景属性标注的第三文本样本集合(也可与第二文本样本集合相同)中，选取多个第三文本样本，所选取的第三文本样本是已经删除第三文本样本中的至少一部分内容，例如从第三文本样本随机删除几个字，将选取的第三文本为第一神经网络模型的输入，以删除后的第三文本样本为输出，训练第一神经网络模型填补缺失字的能力，直至第一神经网络模型文本填充准确率大于第二预设准确率时，完成训练。

需要说明的是，在训练第一神经网络模型过程中使用的无标注的文本样本数量远大于被标注的第一文本样本数量，也即第一文本样本数量与第二文本样本以及第三文本样本的总数量的比值小于第二数值(例如，百万分之一)。

步骤S103，根据场景属性对应的属性评价文本在目标文本中的位置，提取场景属性对应的属性评论文本。

具体实施时，可以根据场景属性对应的属性评价文本在目标文本中的位置。例如，起始位置和结束位置信息，从目标文本中提取出场景属性对应的属性评价文本。例如，场景属性“位置”对应的属性评价文本在目标文本“这个酒店装修不错位置一般我找了半天才找到”的位置为00000000100100000000，可以从起始位置(第一个1)开始逐个提取文字，直至提取结束位置(第二个1)的文字后停止，场景属性“位置”对应的属性评价文本为“位置一般”。准确地确定场景属性对应的属性评价文本，有助于识别场景属性的评价态度，仅根据“位置一般”确定场景属性“位置”的评价态度的准确率高于根据目标文本“这个酒店装修不错位置一般我找了半天才找到”确定场景属性“位置”的评价态度的准确率。

在实际应用场景中，提取出场景属性对应的属性评论文本之后，可以确定属性评论文本反映出的用户评价态度。例如，将属性评论文本输入到属性评价模型中，利用属性评价模型确定属性评论文本的属性评价信息类别。进一步地，利用预设属性评价信息与属性评价信息类别的对应关系，确定所述属性评论文本对应的属性评价信息。

预先确定的属性评价模型用于确定目标文本所属账户对应的用户对场景属性的评价态度(评价倾向)，可以预先对属性的评价态度分类，设置多个属性评价信息(评价态度)类别与属性评价信息的对应关系。例如，正面的评价信息的类别为+1，中性的评价信息的类别为0，负面的评价信息的类别为-1。属性评价模型可以为任一种传统的文本分类模型，例如快速文本分类(fasttext)模型、文本分类卷积神经网络(textcnn)模型。根据属性评价文本中的词向量，与预先确定的词向量与评价信息类别对应关系，确定属性评价文本的属性评价信息类别，然后根据属性评价信息类别和属性评价信息对应关系，确定出属性评价文本的属性评价信息。

例如目标文本为“这个酒店装修不错，位置一般，我找了半天才找到，早餐还是挺好吃的，但是价格贼贵”，通过本发明实施例的文本提取方法，可以提取场景属性对应的属性评价文本的结果为：

装修——属性评价文本：装修不错；

位置——属性评价文本：位置一般；

餐饮——属性评价文本：早餐还是挺好吃的；

价格——属性评价文本：价格贼贵。

若结合属性评价模型确定每个属性评价文本的属性评价信息类别，可以得到目标文本的文本分析结果为：

装修：+1属性评价文本：装修不错；

位置：0属性评价文本：位置一般；

餐饮：+1属性评价文本：早餐还是挺好吃的；

价格：-1属性评价文本：价格贼贵。

若结合属性评价模型确定每个属性评价文本的属性评价信息，可以得到目标文本的文本分析结果为：

装修：正面属性评价文本：装修不错；

位置：中性属性评价文本：位置一般；

餐饮：正面属性评价文本：早餐还是挺好吃的；

价格：负面属性评价文本：价格贼贵。

图2根据一示例性实施例示出的一种位置确定模型确定方法示意流程图，如图2所示，本发明实施例提供的位置确定模型确定方法，可以包括如下步骤：

步骤S201，目标场景的文本样本预处理。

具体实施时，训练文本样本可以分为两类，一类是被标注的第一文本样本，另一类是无标注的第二文本样本。其中，第一文本样本被标注出场景属性标记，以及场景属性对应的属性评论文本在第一文本样本中的位置。第二文本样本是没有场景属性标记，也没有场景属性对应的属性评论文本在第二文本样本中的位置。

需要说明的是，第二文本样本的文本关联关系是预先确定的，例如，若两个第二文本样本属于同一文本，且为前后句关系，这两个第二文本样本具有文本关联关系，否则这两个第二文本样本不具有文本关联关系。同时，每个第二文本样本的文本长度也是预先确定的。

目标场景对应的多个场景属性，对第一文本样本与场景属性进行预处理，并将处理后的第一文本样本和场景属性作为训练位置确定模型的输入。例如，[CLS]第一文本样本[SEP]场景属性[SEP]。对任意两个第二文本样本进行预处理，并将处理后的两个第二文本样本作为训练关系确定模型的输入。例如，[CLS]第二文本样本[SEP]第二文本样本[SEP]。

需要说明的是，被标注的第一文本样本数量远小于无标注的第二文本样本数量，在实际应用场景中第一文本样本数量与第二文本样本数量的比值约为百万分之一。

步骤S202，训练关系确定模型。

具体实施时，将处理后的第二文本样本、第二文本样本的文本关联关系作为第一神经网络模型的输入，以第二文本样本的文本关联关系作为第一神经网络模型输出，也即第一神经网络模型的训练任务是预测两个文本的文本关联关系，直至文本关联关系预测准确率大于第一预设准确率时，完成对第一神经网络模型的训练，可以将训练后的第一神经网络模型作为关系确定模型。

也可以对训练后的第一神经网络模型进行其他训练任务的训练。例如，以删除第二文本样本的部分文本内容的文本以及第二文本样本的文本长度作为第一神经网络模型的输入，以第二文本样本的文本长度作为第一神经网络模型的输出，也即第一神经网络模型的训练任务是填充第二本文被删除的部分文本内容，直至文本填充准确率大于第二预设准确率时，完成对第一神经网络模型的训练。

需要说明的是，若第一神经网络模型有多个训练任务时，执行训练任务的先后顺序本发明实施例对比不作具体限定。根据不同的应用场景，第一神经网络模型可以只进行预测两个文本的文本关联关系的训练任务，并将训练后的第一神经网络模型作为关系确定模型。

步骤S203，确定位置确定模型。

具体实施时，将处理后的第一文本样本、第一文本样本场景属性标记、场景属性对应的属性评论文本在第一文本样本中的位置，作为步骤S202通过训练得到的关系确定模型的输入，以场景属性对应的属性评论文本在第一文本样本中的位置作为关系确定模型的输出，对关系确定模型进行训练，可以直接将训练后的关系确定模型作为位置确定模型，也可以计算位置确定准确率，位置确定准确率大于目标准确率时，完成训练，并将训练后的关系确定模型作为位置确定模型。

其中，场景属性对应的属性评论文本在第一文本样本中的位置通过独热(onehot)编码表示，例如文本长度为6，文本第五个字的位置可以表示为000010，第二个字的位置可以表示为010000。若在文本长度为6的文本中，场景属性对应的属性评论文本的起始位置为第二个字的位置，结束位置为第六个字的位置，那么场景属性对应的属性评论文本在文本样本中的位置可表示为010001。处理后的第一文本样本m格式为[CLS]第一文本样本m[SEP]场景属性1[SEP]，若第一文本样本m中没有关于场景属性1的属性评论文本，场景属性1在对应的属性评论文本在第一文本样本m中的位置为与第一文本样本m文本长度个0。

图3根据一示例性实施例示出的一种文本提取方法示意流程图，如图3所示，本发明实施例提供的文本提取方法，可以包括如下步骤：

步骤S301，获取目标场景的目标文本。

具体实施时，目标场景可以是有关任意商品，事件评论的场景。目标文本为目标账户所属用户对目标场景的评论文本。目标文本可以反映出目标账户所属用户对目标场景各个场景属性的评价情况。

步骤S302，目标文本与目标场景对应的场景属性进行预处理。

具体实施时，目标尝尽该对应的多个场景属性，分别将目标文本与各个场景属性进行预处理。例如，[CLS]目标文本[SEP]场景属性1[SEP]、[CLS]目标文本[SEP]场景属性2[SEP]等。此步骤可以在输入位置确定模型之前实施，可以由位置确定模型实施。

步骤S303，预处理后的目标文本输入预先训练的位置确定模型。

具体实施时，预先训练的位置确定模型，可以通过上述本发明实施例提供的位置确定模型确定方法进行训练。

步骤S304，根据位置确定模型输出的位置，确定场景属性的属性评论文本在目标文本中的位置。

具体实施时，位置确定模型输出目标文本中包含场景属性的属性评论文本在目标文本中的位置，例如，目标文本中包含场景属性1的属性评论文本，输出场景属性1的属性评论文本在目标文本中的位置(起始位置以及结束位置)。目标文本中不包含场景属性2的属性评论文本，输出场景属性2的属性评论文本在目标文本中的位置为一串长度为目标文本的文本长度的0串。

步骤S305，根据场景属性的属性评论文本在目标文本中的位置，提取场景属性的属性评论文本。

具体实施时，根据场景属性的属性评论文本在目标文本中的位置(非0串)，提取目标文本中包含场景属性的属性评论文本。

基于相同的发明构思，如图4所示，本发明实施例还提供一种文本提取装置，包括获取单元401，处理单元402，提取单元403。

获取单元401，用于获取目标场景的目标文本，目标场景对应预设数量个场景属性；

处理单元402，用于利用预先训练的位置确定模型确定场景属性对应的属性评价文本在目标文本中的位置，位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；

提取单元403，用于根据场景属性对应的属性评价文本在目标文本中的位置，提取场景属性对应的属性评论文本。

一种可能的实施方式中，本发明实施例提供的文本提取装置，处理单元402具体用于：

采用如下步骤训练位置确定模型：

采用如下步骤确定关系确定模型：

将训练后的第一神经网络模型确定为关系确定模型；

一种可能的实施方式中，本发明实施例提供的文本提取装置，处理单元402还用于：

一种可能的实施方式中，本发明实施例提供的文本提取装置，装置还包括：

确定单元404，用于将属性评论文本输入到属性评价模型中，利用属性评价模型确定属性评论文本的属性评价信息类别。

一种可能的实施方式中，本发明实施例提供的文本提取装置中，确定单元404，还用于利用预设属性评价信息与属性评价信息类别的对应关系，确定属性评论文本对应的属性评价信息。

图5是根据一示例性实施例示出的文本提取设备500的结构示意图，如图5所示，本发明实施例示出的文本提取设备500包括：

处理器510；

用于存储处理器510可执行指令的存储器520；

其中，处理器510被配置为执行指令，以实现本发明实施例中文本提取方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器520，上述指令可由文本提取装置的处理器510执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

另外，结合图1、3、4所描述的本发明实施例提供的文本提取方法及装置可以由文本提取终端来实现。图6示出了本发明实施例提供的文本提取终端结构示意图。

该文本提取终端可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于存储数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在数据处理装置的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括ROM。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的文本提取方法。

在一个示例中，该文本提取终端还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将该文本提取设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其它图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其它合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的文本提取方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一项文本提取方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本提取方法，其特征在于，所述方法包括：

获取目标场景的目标文本，所述目标场景对应预设数量个场景属性；

利用预先训练的位置确定模型确定场景属性对应的属性评价文本在所述目标文本中的位置，所述位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；

根据所述场景属性对应的属性评价文本在所述目标文本中的位置，提取场景属性对应的属性评论文本。

2.根据权利要求1所述的方法，其特征在于，所述位置确定模型，采用如下步骤训练：

以所述目标场景的第一文本样本、设置的第一文本样本的场景属性标记、设置的场景属性对应的属性评论文本在第一文本样本中的位置，作为所述关系确定模型的输入，以所述场景属性对应的属性评论文本在第一文本样本中的位置作为所述关系确定模型的输出，对关系确定模型进行训练，将训练后的关系确定模型作为所述位置确定模型。

3.根据权利要求2所述的方法，其特征在于，所述关系确定模型，采用如下步骤确定：

将包含多个第二样本的第二样本集合，以及设置的所述第二样本集合中任意两个第二文本样本之间的文本关联关系作为输入，将所述第二样本集合中任意两个第二文本样本之间的文本关联关系作为输出，对所述第一神经网络模型进行训练，使文本关系确定准确率大于第一预设准确率；

将训练后的第一神经网络模型确定为所述关系确定模型；

其中，所述第一文本样本数量与所述第二文本样本数量的比值小于第一数值。

4.根据权利要求3所述的方法，其特征在于，所述将训练后的第一神经网络模型确定为所述关系确定模型之前，所述方法还包括：

从第三文本样本集合中选取多个第三文本，并删除选取的第三文本中的至少一部分内容，将包含删除部分内容的第三文本的第三文本样本集合作为所述第一神经网络模型的输入，并将第三文本作为输出，对所述第一神经网络模型进行训练，使文本填充准确率大于第二预设准确率；

其中，所述第一文本样本数量与所述第二文本样本数量以及所述第三样本数量总和的比值小于第二数值。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述属性评论文本输入到属性评价模型中，利用所述属性评价模型确定所述属性评论文本的属性评价信息类别。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种文本提取装置，其特征在于，所述装置包括：

获取单元，用于获取目标场景的目标文本，所述目标场景对应预设数量个场景属性；

处理单元，用于利用预先训练的位置确定模型确定场景属性对应的属性评价文本在所述目标文本中的位置，所述位置确定模型是基于用于识别两个文本之间的文本关联关系的关系确定模型训练生成的；

提取单元，用于根据所述场景属性对应的属性评价文本在所述目标文本中的位置，提取场景属性对应的属性评论文本。

8.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于：

采用如下步骤训练所述位置确定模型：

以所述目标场景的第一文本样本、设置的第一文本样本的场景属性标记、设置的场景属性对应的属性评论文本在第一文本样本中的位置，作为所述文本关系确定模型的输入，以所述场景属性对应的属性评论文本在第一文本样本中的位置作为所述文本关系确定模型的输出，对关系确定模型进行训练，将训练后的关系确定模型作为所述位置确定模型。

9.一种文本提取设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的文本提取方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由文本提取设备的执行器执行时，使得文本提取设备能够执行如权利要求1至6中任一项所述的文本提取方法。