CN112860885A

CN112860885A - 一种文本处理的方法和装置

Info

Publication number: CN112860885A
Application number: CN202110043043.8A
Authority: CN
Inventors: 罗晓天
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-28
Anticipated expiration: 2041-01-13
Also published as: CN112860885B

Abstract

说明书披露一种文本处理的方法和装置。一种文本处理的方法，包括：获取待处理的文本；从所述待处理的文本中提取出所述文本描述的主体；将所述主体与所述文本输入多任务标签识别模型，所述多任务标签识别模型包括分类任务和识别任务，其中，所述分类任务用于预测所述文本中是否存在所述主体的主体标签，所述识别任务用于从所述文本中识别出所述主体的主体标签；当所述分类任务预测得到所述文本中存在主体标签时，将所述识别任务识别出的主体标签确定为所述主体的主体标签。

Description

一种文本处理的方法和装置

技术领域

本说明书涉及人工智能领域，特别涉及一种文本处理的方法和装置。

背景技术

相关技术中，可以从公开的资料中提取出企业、产品、人物等主体和该主体的标签。例如，主体为“小明”，其标签可以为“在职教师”、“25岁”、“男性”。用户可以通过这些标签快速地认识其想要了解的主体，对该主体形成一个简单但不失全面的印象。如何准确地挖掘出主体和主体标签，成为业内关注的重点。

发明内容

有鉴于此，本说明书提供一种文本处理的方法和装置、一种主体标签的确定方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种文本处理的方法，包括：

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；

将所述主体与所述文本输入多任务标签识别模型，所述多任务标签识别模型包括分类任务和识别任务，

其中，所述分类任务用于预测所述文本中是否存在所述主体的主体标签，所述识别任务用于从所述文本中识别出所述主体的主体标签；

当所述分类任务预测得到所述文本中存在主体标签时，将所述识别任务识别出的主体标签确定为所述主体的主体标签。

一种主体标签的确定方法，包括：

接收用户发送的主体标签获取请求，所述获取请求中指定有目标主体；

响应于所述获取请求，从知识库中查找所述目标主体对应的主体标签，所述知识库中的目标主体和主体标签基于权利要求1至8任一项所述方法确定；

将查找到的主体标签发送给所述用户。

一种文本处理的装置，包括：

获取单元，获取待处理的文本；

主体确定单元，从所述待处理的文本中提取出所述文本描述的主体；

输入单元，将所述主体与所述文本输入多任务标签识别模型，所述多任务标签识别模型包括分类任务和识别任务，

主体标签确定单元，当所述分类任务预测得到所述文本中存在主体标签时，将所述识别任务识别出的主体标签确定为所述主体的主体标签。

一种主体标签的确定装置，包括：

接收单元，接收用户发送的主体标签获取请求，所述获取请求中指定有目标主体；

查找单元，响应于所述获取请求，从知识库中查找所述目标主体对应的主体标签，所述知识库中的目标主体和主体标签基于权利要求1至8任一项所述方法确定；

发送单元，将查找到的主体标签发送给所述用户。

一种文本处理的装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与文本处理的逻辑对应的机器可执行指令，所述处理器被促使：

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；

本说明书一个实施例实现了，可以获取待处理的文本，从该文本中提取出主体，并将主体和文本一同输入多任务标签识别模型，基于该多任务识别模型中的分类任务预测该文本中是否存在主体标签、基于识别任务识别出该文本中的主体标签，并在分类任务预测得到存在主体标签的情况下，将识别任务识别出的主体标签作为该主体最终的主体标签。采用上述方法可以大大提高主体、主体标签识别的准确度。

附图说明

图1是本说明书一示例性实施例示出的一种文本处理的方法的流程示意图；

图2是本说明书一示例性实施例示出的另一种文本处理的方法的流程示意图；

图3是本说明书一示例性实施例示出的一种拼接文本的示意图；

图4是本说明书一示例性实施例示出的另一种拼接文本的示意图；

图5是本说明书一示例性实施例示出的另一种文本处理的方法的流程示意图；

图6是本说明书一示例性实施例示出的一种主体标签的确定方法的流程示意图；

图7是本说明书一示例性实施例示出的一种文本处理的装置所在服务器的一种硬件结构图；

图8是本说明书一示例性实施例示出的一种文本处理的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着技术的发展，互联网上的资料越来越丰富，可以从这些资料中汲取许多有价值的信息。比如，当用户想要了解某个企业的信息时，可以查询互联网上的资料，以获取到该企业的相关介绍、主营业务、合作伙伴等信息，从而对该企业形成一个大致的印象。

相关技术中，可以事先从大量的资料中提取出企业、人物、产品等主体和该主体的标签，那么当用户想要了解某个主体时，可以直接将该主体的标签提供给用户，而不需要用户花费大量的时间和精力去互联网中查询相关信息，提升用户体验。

通常，可以从文本中提取出主体和主体标签。比如，可以人为设置规则来提取主体和标签。举例来说，对于文本“小明是教师”，可以设置规则为：“是”之前的文本为主体，“是”之后的文本为主体标签，那么可以提取得到主体为“小明”，主体标签为“教师”。但由于实际场景中的文本可能是多种多样的，采用人工制定规则的方法往往难以穷尽所有情况，导致基于这些规则提取到的主体和主体标签准确率较低。

再比如，也可以采用模型来提取主体和主体标签。由于主体通常为名词，可以根据这一规律提取得到较为准确的主体。但主体标签的形式可能是各式各样的，并不像主体一样容易找到规律，提取主体标签的准确率依然较低。例如对于“小明是一名在职教师”这个文本来说，我们实际期望提取到的标签为“在职教师”，但上述模型可能会提取到标签为“职教师”，并不准确。

基于此，本说明书提供了一种文本处理的方法，可以从文本中准确地提取到主体和主体标签。

首先对本说明书中的主体和主体标签进行说明。

本说明书中，主体可以是文本描述的对象，比如可以是企业、人物、产品等。主体标签可以是描述主体特征、属性的关键词、词组或短句。

举例来说，当主体为企业时，主体标签可以是企业定位、大众评价、主营业务、荣誉奖项；当主体为人物时，主体标签可以是职业身份、荣誉勋章、成绩事迹；当主体为产品时，主体标签可以是功能、品牌、开发公司、营销途径。本说明书对主体标签的词性、长短、语法并不作特殊限制。

请参见图1，图1为本说明书一示例性实施例示出的一种文本处理的方法的流程示意图。所述方法可以应用于具有存储器、处理器的电子设备，例如服务器或服务器集群中，所述方法包括以下步骤：

步骤102，获取待处理的文本；

步骤104，从所述待处理的文本中提取出所述文本描述的主体；

步骤106，将所述主体与所述文本输入多任务标签识别模型，所述多任务标签识别模型包括分类任务和识别任务，其中，所述分类任务用于预测所述文本中是否存在所述主体的主体标签，所述识别任务用于从所述文本中识别出所述主体的主体标签；

步骤108，当所述分类任务预测得到所述文本中存在主体标签时，将所述识别任务识别出的主体标签确定为所述主体的主体标签。

下面对上述步骤进行详细说明。

本实施例中，待处理的文本可以是从公开资讯中获取的，例如网站、新闻、论文、公开的数据库等，也可以是从某持有方持有的私有数据中获取的，如某平台的用户数据、交易数据等。并且，待处理的文本可以是各种类型的，本实施例对此不作特殊限制。

本实施例中，可以从待处理的文本中提取出主体。比如，可以将该文本输入主体识别模型，得到该文本中包含的主体。所述主体识别模型可以是序列标注的模型，如CRF(Conditional Random Field，条件随机场)、BiLSTM(Bi-directional Long Short-TermMemory，双向长短期记忆)等，也可以是CRF与BERT算法结合得到模型。具体可参照相关技术，本实施例在此不过多赘述。

本实施例中，从文本中确定主体后，可以将该主体和文本输入多任务标签识别模型。该多任务标签识别模型包括分类任务和识别任务，这两个任务可以共享标签识别模型的一部分参数，同时也拥有各自独立的参数。其中，分类任务可以预测所述文本中是否存在该主体的主体标签，识别任务可以从该文本中识别出该主体的主体标签。

本实施例中，步骤108可以是多任务标签识别模型执行的，即当分类任务预测得到所述文本中存在该主体的主体标签时，多任务识别模型可以将识别任务预测得到的主体标签输出，作为该主体最终的主体标签。反之，当分类任务预测得到所述文本中不存在该主体的主体标签时，则即便是识别任务识别出了主体标签，也不将其输出，而是可以输出该文本中不包含主体标签的预测结果。

当然，在其他实施例中，步骤108也可以不是多任务识别模型执行的，那么多任务识别模型可以把分类任务和识别任务的预测结果都输出，后续可以让其他执行主体执行步骤108，本说明书对此不作特殊限制。

本实施例中，采用上述多任务的标签识别模型的方法的好处是，在一些情况下，识别任务识别出的主体标签并不一定准确，比如对于文本“小明一鼓作气爬了上去”来说，识别任务可能会识别出主体标签为“一鼓作气爬了上去”，但这显然不是“小明”这个主体的特征或属性，不属于本说明书所阐述的主体标签，那么可以通过上述分类任务判断该文本中是否存在主体标签，若不存在，则认为识别任务预测出的主体标签是不准确的，不将其作为最终的主体标签，这样可以提高主体标签预测的准确度。

由以上描述可以看出，在本说明书的一个实施例中，可以获取待处理的文本，从该文本中提取出主体，并将主体和文本一同输入多任务标签识别模型，基于该多任务识别模型中的分类任务预测该文本中是否存在主体标签、基于识别任务识别出该文本中的主体标签，并在分类任务预测得到存在主体标签的情况下，将识别任务识别出的主体标签作为该主体最终的主体标签。

采用上述方法，一方面，可以通过多任务的标签识别模型对文本中的主体标签进行识别，不会直接将识别任务预测出的主体标签直接作为最终的主体标签，而是可以根据分类任务进行辅助判断，相比于相关技术中采取的方法来说，可以大大提高主体标签识别的准确度。另一方面，在标签识别模型中引入分类任务，分类任务和识别任务可以联合训练，那么在训练过程中也可以通过分类任务的预测结果对识别任务的模型参数进行优化，以此提高识别任务的识别准确度。

下面对本说明书提供的另一种文本处理的方法进行说明。本实施例主要从多任务标签识别模型的角度进行阐述。

请参见图2，图2为本说明书一示例性实施例示出的另一种文本处理方法的流程示意图。所述方法包括以下步骤：

步骤202，获取输入的主体和文本；

步骤204，将所述主体和所述文本进行拼接，得到拼接文本；

步骤206，为拼接文本中的所述主体和所述文本分别赋予不同的初始特征。

本实施例中，获取主体和文本后，可以对文本和主体进行拼接，得到拼接文本，并且为拼接文本中的所述主体赋予主体初始特征、为文本赋予文本初始特征，以基于该初始特征区分文本和主体。

请参见图3，图3示例性地示出了一种拼接文本的示意图。假设文本为“小明是阳光小学的一名在职教师”，若已经提取到主体为“小明”，那么可以将该主体与文本按照图3所示方法拼接，并且用“CLS”、“SEP”作为分隔符对主体和文本进行分隔。并且，还可以为主体中的各个字赋予初始特征“0”，为文本中的各个字赋予初始特征“1”。这样可以通过“1”和“0”对文本和主体进行区分，并且也可以让标签识别模型在“1”对应的字中确定出主体标签，而不需要分析“0”对应的字。当然，此处的初始特征“1”和“0”仅仅是示例性的说明，在实际应用中也可以是其他字符，只要主体和文本的初始特征不同即可。

值得说明的是，本实施例中上述拼接、赋予初始特征的过程可以是标签识别模型执行的，也可以不是标签识别模型执行的，本实施例对此不作特殊限制。

步骤208，基于所述初始特征提取出拼接文本的综合特征。

本实施例中，可以基于拼接文本和其对应的初始特征提取得到综合特征。比如，可以基于ALBERT(A Lite Bidirectional Encoder Representations from Transformer，基于变换器的轻量双向编码表征器)算法来提取综合特征。

一方面，该综合特征可以作为整体进行后续的处理，例如分类任务可以基于整体的综合特征进行预测；另一方面，也可以对综合特征进行分解，得到文本特征和主体特征，以基于拆分后文本和主体各自的特征进行后续处理，例如识别任务可以基于独立的文本特征和主体特征进行预测。其中，综合特征可以是拼接文本中各个字的特征值。

步骤210，基于所述综合特征在所述文本中定位出主体标签的头部字符和尾部字符，并基于所述头部字符和尾部字符识别出所述主体的主体标签；

步骤212，基于所述综合特征，判断所述文本中是否存在所述主体的主体标签。

本实施例中，执行步骤208后可以执行步骤210、步骤212。

在一个例子中，步骤210和步骤212可以都执行，然后基于这两个步骤的执行结果执行步骤214。

在另一个例子中，也可以先执行步骤212，当步骤212预测得到所述文本中包含主体标签后，再执行步骤210。

下面首先对步骤210进行详细说明。

本实施例中，可以通过指针网络(Pointer Network)从所述文本中定位出主体标签，比如可以根据指针网络得到分类任务参数，分类任务参数为标签识别模型的模型参数，不同的主体对应的分类任务参数可以不同，可以基于当前的分类任务参数来确定主体标签。

可以设置一个头指针和一个尾指针，这两个指针分别用于找到主体标签的头部字符和尾部字符。并且，这两个指针各自存在对应的头部定位参数和尾部定位参数，这两个定位参数是在标签识别模型训练过程中确定的。

本实施例中，可以先根据主体获取该主体对应的头部定位参数和尾部定位参数，然后基于头部定位参数和文本特征确定头部特征，基于尾部定位参数和文本特征确定尾部特征。再根据头部特征和尾部特征确定出主体描述的头部字符和尾部字符，从而识别出主体标签。

比如，当头部定位参数为头部定位向量、尾部定位参数为尾部定位向量、主体特征为特征矩阵时，可以将特征矩阵与头部定位向量相乘，得到头部向量(即上述头部特征)，将特征矩阵与尾部定位向量相乘，得到尾部向量(即上述尾部特征)。其中，头部定位向量和尾部定位向量中的元素的数量与特征矩阵的列数相同。例如，假设特征矩阵的大小为14*14，头部定位向量和尾部定位向量的大小都可以为14*1，那么将特征矩阵和定位向量相乘后，可以得到1*14的向量。

然后可以基于头部向量和尾部向量，从所述文本中确定主体标签的头部字符和尾部字符，可以基于该头部字符和尾部字符识别出主体标签。

在一个例子中，可以将头部向量中的元素i与尾部向量中的元素j相乘，判断乘积是否大于阈值，若大于，则将这元素i和j对应的字符确定为头部字符和尾部字符。其中，i和j为大于等于1的整数，且i和j的初始值均为1。阈值可以是预设值。

仍以上述例子为例，请参见图4，假设计算得到：

头部向量＝(0.1，0.1,0.1,0.2,0.1,0.2,0.1,0.1,0.2,0.1,0.6,0.1,0.3,0.1)；尾部向量＝(0.1,0.1,0.1,0.1,0.2,0.3,0.1,0.1,0.1,0.1,0.2,0.1,0.6)。且头部向量和尾部向量中的元素与文本中的每个字一一对应。假设阈值为0.3。

比如，参见图4，可以头部向量为基准进行计算。将头部向量中的第1个元素值0.1与尾部向量中的第1个元素值0.1相乘，得到乘积为0.01，小于阈值0.3。则将头部向量中第1个元素值0.1与尾部向量中的第2个元素值0.1相乘，得到乘积为0.01，小于阈值0.3。则将头部向量中的第1个元素值0.1与尾部向量中的第3个元素值0.1相乘……以此循环。当头部向量中的第1个元素值与尾部向量中的各个元素值都相乘后，且乘积都未超过阈值，那么可以使头部向量中的第2个元素值执行上述步骤，直到出现乘积超过阈值的情况才停止。

对图4所示例子而言，当头部向量中的第11个元素值0.6与尾部向量中第14个元素值0.6相乘后，乘积为0.36，超过阈值，则可以将这两个元素值对应的字符“在”和“师”作为主体标签的头部字符和尾部字符，从而从所述文本中定位出主体标签为“在职教师”。

再比如，也可以尾部向量为基准进行计算。类似的，可以将尾部向量中的第1个元素值0.1与头部向量中的第1个元素值0.1相乘，得到乘积为0.01，小于阈值。则将尾部向量中的第1个元素值0.1和头部向量中的第2个元素值0.1相乘，判断乘积是否超过阈值……具体参考上述步骤，在此不再赘述。

再比如，也可以结合上述两个方法来确定头部元素和尾部元素。比如可以在以头部向量为基准时仅确定头部字符，在以尾部向量为基准时仅确定尾部字符。本实施例对此不作特殊限制。

本实施例中，采用上述方法，可以在首次计算得到超过阈值的乘积时，就将该乘积对应的元素确定头部字符和尾部字符，不需要对文本中的每个字都进行一次计算，在文本较长的情况下可以减少计算量，提高效率。

在另一个例子中，也可以获取头部向量中最大元素值，将所述最大元素值对应的字符确定为所述头部字符。获取尾部向量中最大元素值，将所述最大元素值对应的字符确定为所述尾部字符。

仍以上述图4所示例子进行说明，可以获取头部向量中的最大元素值0.6，该最大元素值对应的字符为“在”，则可以将“在”确定为主体标签的头部字符。获取尾部向量中的最大元素值0.6，该最大元素值对应的字符为“师”，则可以将“师”确定为主体标签的尾部字符。然后可以据此从文本中定位出主体标签为“在职教师”。

当然，本例中除了可以获取最大元素值外，同样也可以获取元素值超过阈值的元素，将该元素对应的字符作为头部字符或尾部字符。

并且，在本例中，文本中可能包含多个主体标签，那么可能会存在多个超过阈值的元素值，从而确定出多个头部字符和/或多个尾部字符，那么还可以对这些头部字符和尾部字符进一步分析，以确定出主体标签。

例如，可以根据主体标签是否重叠来确定主体标签。

若文本为“小明是阳光小学的一名在职教师并且被评为优秀职员”，假设确定出的头部字符为“在”和“优”，尾部字符为“师”和“员”，可以分析根据这些头部字符和尾部字符定位出的主体标签为“在职教师”和“优秀职员”，并且这两个主体标签不存在重叠字符，则在步骤210中将这两个主体标签都作为预测出的主体标签。

若文本为“小明是阳光小学的一名优秀在职教师和职员”，假设定位出的头部字符为“在”和“教”，尾部字符为“师”和“员”，那么得到主体标签为“在职教师”和“教师和职员”，这两个主体标签之间存在重叠，那么可以从中选择一个主体标签，比如可以按顺序选择文本中位置靠前的“在职教师”。

当然，上述例子仅仅是一种示例性的例子，在其他例子中，可以根据元素值的大小、主体标签的字数等其他方法来确定主体标签，本实施例在此不一一举例。

下面对步骤212进行说明。

本实施例中，可以采用多任务标签识别模型的识别任务，基于文本和主体对应的综合特征预测文本中是否存在主体标签。其中，识别任务可以是采用大量不同的文本和主体训练得到的，训练样本标签可以是“存在主体标签”和“不存在主体标签”。

识别任务可以直接输出文本中存在主体标签或不存在主体标签，也可以输出存在主体标签的概率，通过判断该概率是否大于概率阈值来确定是否存在主体标签。并且，识别任务可以是多种模型，比如可以是基于ALBERT算法得到的二分类模型。

步骤214，将所述主体标签输出。

本实施例中，当步骤212中的预测结果为文本中包含主体标签时，步骤214中可以将步骤210中识别出的主体标签输出，作为主体的最终主体标签。

由以上描述可以看出，在本明书的一个实施例中，可以提取出文本和主体的综合特征，基于该综合特征从文本中定位出头部字符和尾部字符，以基于该头部字符和尾部字符得到主体标签。采用这种方法可以准确地分析出主体标签的边界，避免将一些不属于主体标签的字符识别为主体标签，从而得到更准确的主体标签。

在本说明书的一个实施例中，采用上述多分类的标签识别模型提取出主体的主体标签后，还可以进一步基于语义判断主体和主体标签是否匹配，从而得到更为准确的主体标签。可参见图5，图5所述步骤可以在前述实施例中的步骤108或步骤214之后执行，可以包括以下步骤：

步骤502，将主体、主体标签和文本输入匹配模型，得到所述主体和所述主体标签是否匹配的预测结果；

步骤504，过滤不匹配的主体和主体标签。

本实施例中，可以将文本中提取得到的主体、主体标签和该文本输入匹配模型。类似的，匹配模型也可以对主体、主体标签和文本进行拼接，得到拼接文本，然后提取出拼接文本的综合特征，基于该综合特征预测出主体和主体标签是否匹配。

其中，匹配模型可以是多种模型，比如也可以是基于ALBERT算法得到的二分类模型。匹配模型的预测结果可以是“匹配”或“不匹配”，也可以是匹配的概率，通过判断该概率是否超过概率阈值来确定主体和标签是否匹配。

本实施例中，可以将不匹配的主体和主体标签过滤，保留匹配的主体和主体标签。比如，对于“小明是一个很好的例子”这个文本来说，提取到的主体可能是“小明”，提取到的主体标签可能是“很好的例子”，那么该主体和主体标签显然是不匹配的，在没有上下文的情况下难以理解该主体标签表达的含义，因此可以对这种不匹配的主体和主体标签进行过滤。

由以上描述可以看出，在本说明书的一个实施例中，还可以根据匹配模型分析主体和主体标签是否匹配，并过滤不匹配的主体和主体标签，从而保留更准确的主体和主体标签，进一步提高准确度。

值得说明的是，本说明书各实施例中出现的匹配模型、标签识别模型、主体识别模型可以联合训练，以此得到性能更优的模型。也可以这些模型独立训练，便于分别对各个模型进行升级。可根据实际情况进行选择。

在本说明书的一个实施例中，从文本中提取得到主体和主体标签后，还可以将主体和主体标签保存到知识库中，后续可基于该知识库获取所需的主体标签。

请参见图6，图6是本说明书一示例性实施例示出的一种主体标签的确定方法的流程示意图。所述方法可以应用于具有存储器、处理器的电子设备中，例如服务器或服务器集群。所述方法可以包括以下步骤：

步骤602，接收用户发送的主体标签获取请求，所述获取请求中指定有目标主体；

步骤604，响应于所述获取请求，从知识库中查找所述目标主体对应的主体标签；

步骤606，将查找到的主体标签发送给所述用户。

本实施例中，当用户想要了解某个主体时，可以发送主体标签获取请求，该请求中可以指定有目标主体。

比如，用户可以浏览一个介绍企业信息的页面，该页面上可以展示企业列表，列表中包括若干个企业。假设而用户想要了解其中的某个企业，那么用户可以点击该企业以发送详细信息获取请求，并且该请求中携带该企业(目标主体)的标识。

再比如，用户在购买商品时可以浏览商品页面，当用户想要了解某个商品的详细信息时，用户可以将鼠标移动到该商品所在的页面范围内，并停留一段时间，服务端检测到这一操作后，即确定接收到了用户发起的详细信息获取请求，并且该请求中携带该商品(目标主体)的标识。

服务器接收到该请求后，可以从知识库中查找该目标主体对应的主体标签。其中，知识库中的主体和主体标签可以是事先收集得到的，比如可以采用上述实施例所述方法收集得到。

比如，对于上述获取企业详细信息的例子，服务端可以从知识库中查找到该企业的企业信息、主营业务、合作伙伴、生产规模等标签。其中，该标签可以是文本的形式。

再比如，对于上述获取商品详细信息的例子，服务端可以从知识库中查找到该商品的商品介绍、功能效果、用户评价等标签。

然后服务端可以将查找到的主体标签发送给用户，用户可以基于这些主体标签来了解目标主体。比如可以在用户点击目标主体后，服务端可以展示另一页面，在该页面上展示主体标签。或者服务端也可以不进行页面跳转，以悬浮窗的形式展示主体标签，本实施例对此不作特殊限制。

采用上述方法，可以在接收到用户发送的主体标签获取请求后，查找知识库中已保存的主体标签发送给用户，以便用户基于这些主体标签对主体形成一个大致的印象，而不需要用户花费时间和精力去大量的资料中查找该主体的相关信息，提升用户体验。

与前述文本处理的方法的实施例相对应，本说明书还提供了文本处理的装置的实施例。

本说明书文本处理的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本说明书文本处理的装置所在服务器的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

图8是本说明书一示例性实施例示出的文本处理装置的框图。

请参考图8，所述文本处理的装置可以应用在前述图7所示的服务器中，包括有：获取单元810，主体确定单元820，输入单元830，主体标签确定单元840，匹配单元850，过滤单元860。

其中，获取单元810，获取待处理的文本；

主体确定单元820，从所述待处理的文本中提取出所述文本描述的主体；

输入单元830，将所述主体与所述文本输入多任务标签识别模型，所述多任务标签识别模型包括分类任务和识别任务，

主体标签确定单元840，当所述分类任务预测得到所述文本中存在主体标签时，将所述识别任务识别出的主体标签确定为所述主体的主体标签。

可选的，所述主体确定单元820用于：

将所述待处理的文本输入主体识别模型中，得到所述文本描述的主体。

可选的，

所述多任务标签识别模型还包括特征提取层，所述特征提取层用于提取得到所述主体的主体特征和所述文本的文本特征；

所述分类任务用于根据所述主体特征获取对应的分类任务参数，并基于所述分类任务参数和所述文本特征从所述文本中识别出主体标签。

可选的，所述分类任务参数包括头部定位参数和尾部定位参数，所述分类任务用于：

基于所述头部定位参数和所述文本特征确定头部特征；

基于所述尾部定位参数和所述文本特征确定尾部特征；

基于所述头部特征和尾部特征定位出所述主体标签的头部字符和尾部字符，并基于所述头部字符和尾部字符识别出所述主体的主体标签。

可选的，所述头部特征为头部向量，所述尾部特征为尾部向量，所述分类任务用于：

将所述头部向量中的第i个元素与所述尾部向量中的第j个元素相乘得到乘积；

判断所述乘积是否大于乘积阈值；

若是，则将所述头部向量中第i个元素对应的字符确定为所述头部字符，将所述尾部向量中第j个元素对应的字符确定为所述尾部字符；

若否，则将所述第i个元素与所述尾部向量中第j+1个元素相乘，并执行判断乘积是否大于乘积阈值的步骤；

或

将所述尾部向量中的第j个元素与所述头部向量中的第i个元素相乘得到乘积；

判断所述乘积是否大于乘积阈值；

若是，则将所述尾部向量中第j个元素对应的字符确定为所述尾部字符，将所述头部向量中第i个元素对应的字符确定为所述头部字符；

若否，则执行将所述第j个元素与所述头部向量中第i+1个元素相乘，并执行判断乘积是否大于乘积阈值的步骤；

其中，i和j为大于等于1的整数，且i和j的初始值为1。

获取所述头部向量中最大元素值，将所述最大元素值对应的字符确定为所述头部字符；

获取所述尾部向量中最大元素值，将所述最大元素值对应的字符确定为所述尾部字符。

可选的，所述特征提取层采用ALBERT算法提取所述主体特征和所述文本特征。

可选的，还包括：

匹配单元850，将所述主体、所述主体标签和所述文本输入匹配模型，以利用所述匹配模型预测所述主体和所述主体标签是否匹配；

过滤单元860，过滤不匹配的主体和主体标签。

与前述主体标签的确定方法的实施例相对应，本说明书还提供了主体标签的确定装置的实施例。

本说明书主体标签的确定装置的实施例同样可以应用在服务器上。具体可参照前述内容，在此不再赘述。

所述主体标签的确定装置可以包括：接收单元、查找单元和发送单元。

其中，接收单元，接收用户发送的主体标签获取请求，所述获取请求中指定有目标主体；

查找单元，响应于所述获取请求，从知识库中查找所述目标主体对应的主体标签；

发送单元，将查找到的主体标签发送给所述用户。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述文本处理的方法的实施例相对应，本说明书还提供一种文本处理的装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与文本处理的逻辑对应的机器可执行指令，所述处理器被促使：

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；

可选的，在从所述待处理的文本中提取出所述文本描述的主体时，所述处理器被促使：

可选的，

可选的，所述分类任务参数包括头部定位参数和尾部定位参数，在基于所述分类任务参数和所述文本特征在所述文本中定位出主体标签时，所述处理器被促使：

基于所述头部定位参数和所述文本特征确定头部特征；

基于所述尾部定位参数和所述文本特征确定尾部特征；

可选的，所述头部特征为头部向量，所述尾部特征为尾部向量，在基于所述头部特征和尾部特征定位出所述主体标签的头部字符和尾部字符时，所述处理器被促使：

判断所述乘积是否大于乘积阈值；

或

判断所述乘积是否大于乘积阈值；

其中，i和j为大于等于1的整数，且i和j的初始值为1。

可选的，所述处理器还被促使：

将所述主体、所述主体标签和所述文本输入匹配模型，以利用所述匹配模型预测所述主体和所述主体标签是否匹配；

过滤不匹配的主体和主体标签。

与前述主体标签的确定方法实施例相对应，本说明书还提供了一种主体标签的确定装置，在本实施例中，通过读取并执行所述存储器存储的与主体标签的确定逻辑对应的机器可执行指令，所述处理器被促使：

响应于所述获取请求，从知识库中查找所述目标主体对应的主体标签；

将查找到的主体标签发送给所述用户。

与前述文本的处理方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；

可选的，所述从所述待处理的文本中提取出所述文本描述的主体，包括：

可选的，

可选的，所述分类任务参数包括头部定位参数和尾部定位参数，所述基于所述分类任务参数和所述文本特征在所述文本中定位出主体标签，包括：

基于所述头部定位参数和所述文本特征确定头部特征；

基于所述尾部定位参数和所述文本特征确定尾部特征；

可选的，所述头部特征为头部向量，所述尾部特征为尾部向量，所述基于所述头部特征和尾部特征定位出所述主体标签的头部字符和尾部字符，包括：

判断所述乘积是否大于乘积阈值；

或

判断所述乘积是否大于乘积阈值；

其中，i和j为大于等于1的整数，且i和j的初始值为1。

可选的，还包括：

过滤不匹配的主体和主体标签。

与前述主体标签的确定方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将查找到的主体标签发送给所述用户。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种文本处理的方法，包括：

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；

其中，所述分类任务用于预测所述文本中是否存在所述主体的主体标签，

所述识别任务用于从所述文本中识别出所述主体的主体标签；

2.根据权利要求1所述方法，所述从所述待处理的文本中提取出所述文本描述的主体，包括：

3.根据权利要求1所述方法，

4.根据权利要求3所述方法，所述分类任务参数包括头部定位参数和尾部定位参数，所述基于所述分类任务参数和所述文本特征在所述文本中定位出主体标签，包括：

基于所述头部定位参数和所述文本特征确定头部特征；

基于所述尾部定位参数和所述文本特征确定尾部特征；

5.根据权利要求4所述方法，所述头部特征为头部向量，所述尾部特征为尾部向量，所述基于所述头部特征和尾部特征定位出所述主体标签的头部字符和尾部字符，包括：

判断所述乘积是否大于乘积阈值；

或

判断所述乘积是否大于乘积阈值；

其中，i和j为大于等于1的整数，且i和j的初始值为1。

6.根据权利要求4所述方法，所述头部特征为头部向量，所述尾部特征为尾部向量，所述基于所述头部特征和尾部特征定位出所述主体标签的头部字符和尾部字符，包括：

7.根据权利要求3至6任一项所述方法，所述特征提取层采用ALBERT算法提取所述主体特征和所述文本特征。

8.根据权利要求1所述方法，还包括：

过滤不匹配的主体和主体标签。

9.一种主体标签的确定方法，包括：

将查找到的主体标签发送给所述用户。

10.一种文本处理的装置，包括：

获取单元，获取待处理的文本；

11.根据权利要求10所述装置，所述主体确定单元用于：

12.根据权利要求10所述装置，

13.根据权利要求12所述装置，所述分类任务参数包括头部定位参数和尾部定位参数，所述分类任务用于：

基于所述头部定位参数和所述文本特征确定头部特征；

基于所述尾部定位参数和所述文本特征确定尾部特征；

14.根据权利要求13所述装置，所述头部特征为头部向量，所述尾部特征为尾部向量，所述分类任务用于：

判断所述乘积是否大于乘积阈值；

或

判断所述乘积是否大于乘积阈值；

其中，i和j为大于等于1的整数，且i和j的初始值为1。

15.根据权利要求13所述装置，所述头部特征为头部向量，所述尾部特征为尾部向量，所述分类任务用于：

16.根据权利要求12至15任一项所述装置，所述特征提取层采用ALBERT算法提取所述主体特征和所述文本特征。

17.根据权利要求10所述装置，还包括：

匹配单元，将所述主体、所述主体标签和所述文本输入匹配模型，以利用所述匹配模型预测所述主体和所述主体标签是否匹配；

过滤单元，过滤不匹配的主体和主体标签。

18.一种主体标签的确定装置，包括：

发送单元，将查找到的主体标签发送给所述用户。

19.一种文本处理的装置，包括：

处理器；

用于存储机器可执行指令的存储器；

获取待处理的文本；

从所述待处理的文本中提取出所述文本描述的主体；