CN110705251B

CN110705251B - 计算机执行的文本分析方法及装置

Info

Publication number: CN110705251B
Application number: CN201910974127.6A
Authority: CN
Inventors: 刘凡; 施伟龙; 张格皓
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2023-06-16
Anticipated expiration: 2039-10-14
Also published as: CN110705251A

Abstract

本说明书实施例提供一种计算机执行的文本分析方法。该方法包括：首先，获取待分析的目标文本；接着，查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签；然后，在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练；再接着，将所述目标文本和所述文本分析结果关联存储至所述缓存中。

Description

计算机执行的文本分析方法及装置

技术领域

本说明书实施例涉及自然语言处理技术领域，具体地，涉及一种通过计算机执行的文本分析方法及装置，以及，一种通过计算机执行的文本分析方法及装置。

背景技术

随着网络信息技术的发展，人们越来越频繁地在互联网上发表言论、传递消息。比如说，在电商平台中的商品页发表对商品的评价。又比如，在社交平台上，针对新推出的应用APP发表使用体验。

通常，出于不同的需要，希望对互联网中产生的文本内容进行分析，如分类或提取摘要等。比如，可以采集某电商平台中大量用户针对某款产品进行评价产生的评价数据，再对评价数据进行分析，以确定用户对该产品的满意度或希望改进的地方等，从而帮助该某款产品的研发方改进产品，进而提高用户体验。

然而，互联网中产生新文本的速度快、量级大。这就对文本分析的及时性提出了较高要求。同时，通常希望文本分析具有较高准确度。因此，迫切需要一种可靠的方案，可以提高对文本分析的及时性、有效性和准确度。

发明内容

在本说明书一个或多个实施例描述的文本分析方法中，利用缓存层和文本分析模型等搭建算法框架，可以实现快速处理大量的文本分析请求，并得到准确度高的文本分析结果。

根据第一方面，提供一种计算机执行的文本分析方法，所述方法包括：获取待分析的目标文本；查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签；在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练；将所述目标文本和所述文本分析结果关联存储至所述缓存中。

在一个实施例中，在所述获取待分析的目标文本之前，所述方法还包括：

将所述多个历史文本和对应的多个文本标签，预先加载至所述缓存中。

在一个实施例中，所述多个历史文本包括用户在社交平台或资讯平台中发布的文本，所述多个文本标签包括多个舆情标签。

在一个实施例中，所述多个历史文本包括针对产品或服务的多条历史评论，所述多个文本标签对应多个满意度等级。

在一个实施例中，所述查询缓存中是否存在与所述目标文本匹配的匹配文本，包括：查询所述缓存中是否存在与所述目标文本相同的匹配文本。

在一个实施例中，在所述查询缓存中是否存在与所述目标文本匹配的匹配文本之后，所述方法还包括：在存在所述匹配文本的情况下，从所述缓存中获取与所述匹配文本关联的文本标签或分析结果，作为所述目标文本的文本分析结果。

在一个实施例中，所述在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，包括：在不存在所述匹配文本情况下，判断所述目标文本是否符合预先设定的若干前置正则表达式；在均不符合的情况下，将所述目标文本输入所述文本分析模型中。

在一个具体的实施例中，在所述判断所述目标文本是否符合预先设定的若干前置正则表达式之后，还包括：在符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

在一个实施例中，所述文本分析模型为BERT模型。

在一个具体的实施例中，所述将所述目标文本输入文本分析模型中，包括：在所述目标文本的字符数大于预定字符数的情况下，对所述目标文本的开头和结尾分别进行截取，并对截取的两部分字符进行拼接，得到具有所述预定字符数的拼接字符；将所述拼接字符输入所述文本分析模型中。

在一个具体的实施例中，所述将所述目标文本输入文本分析模型中，包括：在所述目标文本的字符数小于预定字符数的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数小于所述目标文本的字符数；使用缺省字符填充所述相差的字符数，并与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；将所述第二拼接字符输入所述文本分析模型中。

在一个具体的实施例中，所述将所述目标文本输入文本分析模型中，包括：在所述目标文本的字符数小于预定字符数的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数小于所述目标文本的字符数；基于所述相差的字符数对所述目标文本进行截取，并且，使用所述截取得到的字符与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；将所述第二拼接字符输入所述文本分析模型中。

在一个具体的实施例中，在将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果之后，所述方法还包括：判断所述目标文本是否符合预先设定的若干后置正则表达式；在符合所述若干后置正则表达式中某个表达式的情况下，综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果，得到针对所述目标文本的综合分类结果；所述将所述目标文本和所述文本分析结果关联存储至所述缓存中，包括：将所述目标文本和所述综合分类结果关联存储至所述缓存中。

在一个具体的实施例中，所述缓存基于最近最少使用LRU算法，所述将所述目标文本和所述文本分析结果关联存储至所述缓存中，包括：在所述缓存的容量已满的情况下，基于所述LRU算法，从所述缓存中的已存储数据中确定淘汰数据，并且，删除所述淘汰数据，以使所述缓存中的剩余容量足够存储所述目标文本和文本分析结果；将所述目标文本和所述文本分析结果关联存储至所述缓存中。

根据第二方面，提供一种计算机执行的文本分析装置，所述装置包括：文本获取单元，配置为获取待分析的目标文本；缓存查询单元，配置为查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签；预测单元，配置为在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练；存储单元，配置为将所述目标文本和所述文本分析结果关联存储至所述缓存中。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所描述的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所描述的方法。

在本说明书实施例披露的文本分析方法及装置中，至少使用缓存层和文本分析模型层构建算法框架，可以实现快速、准确地得到针对目标文本的文本分析结果。进一步地，在算法框架中引入前置或后置的正则匹配层，可以弥补文本分析模型对某些特征学习不足的情况，并且，当遇到待分析文本猛增的情况，如舆情爆发，可以及时通过正则匹配层实现人工干预，辅助提高文本分析的速度和准确度。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的实施场景示意图；

图2示出根据一个实施例的文本分析方法的流程图；

图3示出根据一个实施例的用于文本分析的算法框架图；

图4示出根据一个实施例的缓存队列变化示意图；

图5示出根据另一个实施例的缓存队列变化示意图；

图6示出根据另一个实施例的文本分析方法的流程图；

图7示出根据一个实施例的文本分析装置的结构示意框图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

如前所述，在许多场合都需要进行文本分析。在一种实施方式下，可以利用标注有标签的文本，作为标注数据，训练基于深度学习算法的预测模型，用于预测文本的分析结果。

然而，一方面，为了取得较高的预测准确度，在模型训练阶段，通常需要耗费大量的标注数据。但实际上，标注数据的获取依赖具有专项知识的打标人员，因此，获取足够数量的、高质量的标注数据是极其困难、耗时和昂贵的。这就导致，往往只能获取少量的标注数据，用于预测模型的训练，进而导致预测模型的性能不佳，预测结果的准确度十分有限。另一方面，深度学习算法涉及的网络结构较为复杂，参数较多，在模型使用阶段，模型预测速度较慢，而实际需要分析的数据，往往生成速度快，量级大。因此，通常会先将实时产生的数据发送至离线平台，再利用基于深度学习算法的预测模型对离线后的待分析数据进行文本分析，这就导致对文本分析结果的预测不够及时、时效性不强。

基于此，发明人提出一种算法框架，基于此算法框架进行文本分析，可以有效提高文本分析的速度和准确度，甚至可以实现对线上产生的待分析文本的实时分析。图1示出根据一个实施例的实施场景示意图。在一个实施例中，上述算法框架中可以包括多个处理层。在一个具体的实施例中，至少包括图1中示出的缓存层11和文本分析模型层12。基于此框架，对于输入的待分析的目标文本，首先在缓存层11中查找是否存在与目标文本匹配的匹配文本，在不存在匹配文本的情况下，将目标文本输入文本分析模型层12中，利用文本分析模型预测出文本分析结果，并且，将目标文本与文本分析结果关联存储至缓存层11。下面，结合图2和图3，描述基于上述算法框架而实现的文本分析方法的具体实施步骤。

具体地，图2示出根据一个实施例的文本分析方法的流程图。图3示出根据一个实施例的用于文本分析的算法框架图。其中，图2所示出方法的执行主体可以为任何具有计算、处理能力的装置或系统或服务器服务器或平台等。如图2所示，所述方法包括以下步骤：步骤S210，获取待分析的目标文本；步骤S220，查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签；步骤S230，在不存在所述匹配文本的情况下，将目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于多个历史文本和对应的多个文本标签而预先训练；步骤S240，将所述目标文本和所述文本分析结果关联存储至所述缓存中。以上步骤具体如下：

首先，在步骤S210，获取待分析的目标文本。

需要说明的是，可以根据实际的分析需求，从各种互联网平台(如电商平台、社交平台、资讯平台)、网站(如购物网站)定期获取预定时间段(如最近1h内)新增的多个文本，作为待分析文本。比如说，当需要获知用户对某产品的使用体验时，可以从该产品的介绍、宣传或售卖网站中采集用户发表的评论数据，作为待分析文本。或者，当业务系统，如支付系统，中接收到用户对当前支付的评价数据，可以触发生成针对该评价数据的分析请求，相应地，可以在接收分析请求之后，从获取其中包括的评价数据，作为待分析文本。

此外，本说明书实施例主要以待分析的某个文本(文中统称目标文本)为例，对所述文本分析方法进行说明。

在一个实施例中，本步骤中可以包括，获取待分析的原始文本，作为上述目标文本。在另一个实施例中，本步骤中可以包括，获取待分析的原始文本，并且，对原始文本进行预处理，得到所述目标文本，其中预处理可以包括以下中的一种或多种：去除字母、去除数字、去除标点符号、去除表情符号、去除空格、去除停用词。需要理解的是，预处理中需要去除、过滤掉的内容，还可以由工作人员根据实际需要而预先设定。

以上，可以获取待分析的目标文本。接着，在步骤S220，查询缓存中是否存在与所述目标文本匹配的匹配文本。其中，缓存等同于上述缓存层，具体可以参见图1中示出的缓存层11或图3中示出的缓存层31。

在执行步骤S220之前，缓存层中可以存储有多个用于匹配的文本样例，以及与其中各个文本样例相关联的分析结果样例。

具体地，其中缓存至少在初始状态存储有多个历史文本和对应的多个文本标签。在一个实施例中，在步骤S210之前还可以包括：将所述多个历史文本和对应的多个文本标签预先加载至所述缓存中。需要理解的是，其中多个历史文本和多个文本标签还用于对文本分析模型的训练。如此，可以实现对多个历史文本和对应的多个文本标签的复用。此外，在采用所述文本分析方法对大量待分析文本进行分析的过程中，缓存中会不断存入新的数据，并且，在初始状态存储有的上述数据中的部分数据可能会被淘汰。基于此，在一个实施例中，上述文本样例可能包括前述多个历史文本中的至少一部分，相应地，上述分析结果样例可能对应包括上述多个文本标签中的至少一部分。

在另一个实施例中，其中文本样例可以包括在获取当前目标文本之前所获取的在先目标文本，对应的分析结果样例可以包括利用前述文本分析模型，对在先目标文本进行预测得到的分析结果。由此，可以基于缓存中已存储的多个文本样例，针对目标文本进行查询匹配。

具体地，在一个实施例中，步骤S220中可以包括：计算目标文本与缓存中各个文本样例的相似度，将其中大于预定阈值的相似度所对应的文本样例作为所述目标文本的匹配文本。在一个具体的实施例中，其中预定阈值可以由工作人员根据实际经验进行预先设定，如设定为0.9或0.95等。在一个具体的实施例中，当存在一个以上的文本样例与目标文本的相似度大于预定阈值时，选取相似度中最大值所对应的文本样例，作为目标文本的匹配文本。

在另一个实施例中，步骤S220中可以包括：查询所述缓存中是否存在与所述目标文本相同的匹配文本。也就是说，只有当缓存中存储有与目标文本完全相同的文本时，才判定缓存中存在针对该目标文本的匹配文本。需要理解的是，在对文本分析速度具有高要求的场景下，优选采用此种实施方式，可以减轻缓存层的负担，整体加快针对大量文本的分析速度。

以上，可以实现在缓存中查询是否已存在与目标文本匹配的匹配文本。

进一步地，一方面，在存在所述匹配文本的情况下，从所述缓存中获取与所述匹配文本关联的文本标签或分析结果，作为所述目标文本的文本分析结果。在一个例子中，假定缓存中存储的文本样例包括：“这款产品简直好用到爆”，关联存储的分析结果样例为“满意度极高”，再假定目标文本为“这款产品简直好用到爆”，由此可以直接将“满意度极高”作为目标文本的文本分析结果。可以理解，针对目标文本的分析流程至此结束。

如此，通过设置缓存，可以有效提高对大批量文本的整体分析速度。具体而言，待分析文本的量级大、重复率高。典型地，社交平台中用户发布的内容，转发占比高，使得内容重复率很高。并且从实际的数据统计来看，400万数据中有100多万是原文重复的数据，这意味着，平均4条数据中就存在1条重复。进一步地，在对400万数据进行上述预处理之后，重复率高达50％。

因此，通过设置缓存层，在其中存在与目标文本相匹配的匹配文本的情况下，直接获取与该匹配文本关联的分析结果，作为目标文本的文本分析结果，返回给针对目标文本发起分析请求的业务请求方，可以大大提高对文本的分析处理速度。并且，在常规的文本分析场景下，因待分析文本的量级大、产生速度快，通常是将在线生成的待分析文本同步至离线平台后，再集中、统一处理，因而不会考虑设置缓存层。

另一方面，在不存在所述匹配文本的情况下，执行步骤S230，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果。

其中文本分析模型，可以基于多个历史文本和对应的多个文本标签而预先训练。

在一个实施例中，上述多个历史文本可以包括用户在社交平台或资讯平台中发布的文本，所述多个文本标签包括多个舆情标签。由此，训练出的文本分析模型可以用于预测舆情。需要说明的是，舆情可以包括用户对某些事物的看法、态度，如针对某产品的真实反响，等等。相应地，上述多个舆情标签可以根据实际的分析需求而设定。在一个具体的实施例中，上述多个历史文本中包括针对产品或服务的多条历史评论，相应地，在一个例子中，上述多个文本标签可以对应多个满意度等级。在一个具体的例子中，多个满意度等级包括高、中和低，或者，包括非常满意、一般满意、有点满意和不满意。在另一个例子中，上述多个文本标签涉及用户希冀产品改进之处。在一个具体的例子中，假定上述多条历史评论针对的产品是手机，则多个文本标签可以包括：无可挑剔、希望优化拍照效果、希望优化屏幕显示效果、希望优化电量使用时长、希望优化充电速度，等等。

在一个实施例中，上述文本分析模型可以为用于对文本进行分类的预测模型。在另一个实施例中，上述文本分析模型可以为用于生成文本摘要的预测模型。在一个实施例中，上述文本分析模型可以采用循环神经网络(Recurrent Neural Network,RNN)，长短期记忆网络(Long Short-Term Memory，LSTM)，门控循环神经网络(Gated Recurrent NeuralNetwork)，Transformer，XGBoost等等。

优选地，可以选取Bert(Bidirectional Encoder Representations fromTransformers)模型，用于训练得到文本分析模型。如此，在训练样本较少的情况下，也可以训练得到性能优异的文本分析模型。

具体地，使用Bert模型得到文本分析模型包括两个步骤，预训练和精加工(finetuning)。其中预训练是指先用文章预训练出一个通用模型，精加工是指根据具体应用场景，用标注数据，对通用模型进行调整，使之适用于具体应用场景。其中，因通用模型已经具有不错的模型性能，精加工实际是一个微调的过程，在训练过程中模型参数通常只会发生微小变化。针对通用模型的预训练可以参见现有技术，在此不作赘述。另外在实际使用时，可以直接获取网络中发布的经过预训练的通用模型，然后在此通用模型的基础上，利用上述多个历史文本和对应的多个文本标签进行训练，以对通用模型中的参数进行微调，得到上述文本分析模型。

此外，基于Bert模型得到的文本分析模型，对输入文本的字符数有限制，目前支持最多512个字符，因此在针对长文本的分析上无法发挥出Bert算法的优势，特别是微博新闻这类的“超长文本”，几乎都是上千字。由于字数的限制，无法学习到重要的语义信息。进一步地，发明人还发现，长文本中重要的语义信息通常集中在文本开头和文本结尾，其中文本开头会对全篇文本进行架构的介绍，文本结尾会对全篇文本进行总结，而文本的中间大部分是在对开头或结尾的关键点进行展开性叙述。

基于此，发明人提出可以截取长文本开头和结尾的字符，作为代表长文本语义信息的字符。在一个具体的实施中，上述将待分析的目标文本输入文本分析模型中，可以包括：在目标文本的字符数大于预定字符数的情况下，对所述目标文本的开头和结尾分别进行截取，并对截取的两部分字符进行拼接，得到具有所述预定字符数的拼接字符；将所述拼接字符输入所述文本分析模型中。需要理解的是，预定字符数是指设定的可以输入文本分析模型的字符数上限。在一个例子中，假定预定字符数是256个字符，此时可以分别截取目标文本开头的128字符和结尾的128字符，再对截取的两部分字符进行拼接，得到对应该目标文本的256字符。如此，对长文本进行截取拼接，再输入文本分析模型，可以在针对长文本的分析上发挥出Bert算法的优势。

另外在分析短文本时，因文本分析模型处理的字符数是固定的，因此在文本字符数小于预定字符数的情况下，通常会进行高位补零操作，这就会使得针对短文本的特征向量十分稀疏，难以较好的表征短文本的文本语义。

基于此，发明人提出，可以采用循环复制的方式，实现较好地表征短文本。在一个具体的实施例中，上述将待分析的目标文本输入文本分析模型中，可以包括：在所述目标文本的字符数(如16个或20个)小于预定字符数(如256个)的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数(如0个或16个)小于所述目标文本的字符数。

进一步地，在一个例子中，若相差的字符数为零，则直接将具有所述预定字符数的第一拼接字符输入文本分析模型中。在一个例子中，若相差的字符数不为零，也就是大于零，则使用缺省字符(如字符0)填充所述相差的字符数，并与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符，再将所述第二拼接字符输入所述文本分析模型中。在另一个例子中，若相差的字符数不为零，则基于所述相差的字符数对所述目标文本进行截取，并且，使用所述截取得到的字符与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符，再将所述第二拼接字符输入所述文本分析模型中。如此，可以防止在输入短文本时的语义稀疏，进而针对短文本得到有效、准确的文本分析结果。

以上，对于缓存层中不存在与其相匹配文本的目标文本，可以直接将该目标文本输入文本分析模型层中，得到针对所述目标文本的文本分析结果。在另一种实施方式，还可以先将该目标文本输入前置正则匹配层，并且在前置匹配层中未确定出文本分析结果的情况下，再将该目标文本输入文本分析模型层。

具体地，参见图3，上述算法框架中还可以包括前置正则匹配层32，其位于缓存层31和文本分析模型层33之间。对此需要说明的是，针对某些场景中产生的文本，可以从文本中提取出一些强特征，并基于这些强特征确定若干正则表达式，并且构建前置正则表达式(本文将载入前置正则匹配层32的正则表达式称为前置正则表达式)与若干分析结果之间的映射关系。

可以理解，其中正则表达式又称规则表达式，通常被用来检索符合某个模式或规则的文本，还可以用于表达一种过滤逻辑。举例来说，正则表达式：(强特征A|强特征B)，可以用于检索匹配一类包括强特征A或强特征B的文本。

在一个实施例中，上述若干分析结果被包含于上述多个文本标签中。在一个实施例中，上述若干分析结果可以归为两大类，一类为文本有效，一类为文本无效。其中，文本无效表示，具有该分析结果的文本对当前文本分析场景来说，没有意义。在一个具体的实施例中，其中文本有效类可以进一步细分为多种有效分析结果。在一个例子中，具体可以包括账户安全、逾期还款等。

在一个具体的例子中，上述映射关系可以包括下表1中示出的内容。

表1

基于前置匹配层中预置的上述映射关系，在上述步骤S220之后，所述方法还可以包括：在缓存层中不存在与目标文本匹配的匹配文本的情况下，判断所述目标文本是否符合前置匹配层中预先设定的若干前置正则表达式。在目标文本符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

根据一个例子，假定目标文本为：对这次服务很满意给好评。基于表1中示出的映射关系，可以将正则表达式(很满意&好评)所对应的分析结果满意，确定为针对该目标文本的文本分析结果。其中正则表达式(很满意&好评)要求文本中同时包括很满意和好评。

如此，通过设置前置正则匹配层，可以实现在判断出目标文本符合前置正则表达式的情况下，直接返回分析结果，从而大幅度提高对批量待分析文本的整体分析速度。同时，还可以弥补因训练样本较少，后续文本分析模型对某些特征学习不足的情况。需要理解的是，工作人员可以根据应用场景或业务需要的变化，对前置正在匹配层中预置的映射关系进行修改、调整。

另一方面，在步骤S230中可以包括：在判断出目标文本不符合前置正则匹配层中任何一个前置正则表达式的情况下，将所述目标文本输入所述文本分析模型中，以得到目标文本的文本分析结果。在一个例子中，假定目标文本为：虽然一般还是给个好评吧，相应可以确定该目标文本不符合表1中任何一个正则表达式，由此可以将该目标文本输入文本分析模型中。

以上，可以得到目标文本的文本分析结果。具体地，在第一种情况中，该文本分析结果可以是从缓存层中获取的。在第二种情况中，可以是从前置正则匹配层中获取的。在第三种情况中，可以是由文本分析模型层确定的。

针对上述第一种情况，可以理解的是，目标文本和对应的文本分析结果已存在于缓存中，无需重复存储。在一个实施例中，优选地，将最近最少使用(Least recently used，LRU)算法应用于上述缓存层，可以优化缓存层中的空间存储，提高访问速度。LRU算法的核心思想是，如果数据最近被访问过，那么将来被访问的几率更高。

基于此，针对确定出缓存中存在与该目标文本对应的匹配文本的情况，会获取匹配文本对应的分析结果，相应可以判断对该匹配文本和分析结果的访问次数加1。进而基于更新后的访问时间、访问次数和LRU算法，优化缓存中对已存储数据的存储位置。在一个例子中，图4示出缓存中的存储队列，假定在步骤S220之前，存储队列中存储在靠前位置(读取速度更快)至靠后位置的元素分别为：文本D-分析结果D、文本C-分析结果C、文本B-分析结果B、文本A-分析结果A。进一步假定在步骤S220中，查询到缓存中存在与目标文本匹配的匹配文本，且匹配文本为文本B。由此，可以删除原位置的文本B-分析结果B，并将其插入队列前端。如此，可以优化缓存层中已存储数据的存储位置，进而提高整体访问速度。

针对上述第二种情况，考虑到上述前置正则匹配层中预置的映射关系通常是人工设定的，并且可能会发生调整，因此可以不将经由前置正则匹配层获取的文本分析结果和对应的目标文本存储至缓存层中。

针对上述第三种情况，结合前述可知，由文本分析模型预测出的文本分析结果和对应的目标文本，在当前缓存层中是不存在的。基于此，可以在步骤S240，将由文本分析模型层确定出的文本分析结果和对应的目标文本关联存储至缓存中。

此外需要说明的是，考虑到缓存所占的内存容量通常有限，优选地，将LRU算法应用于缓存。在一个具体的实施例中，在所述缓存的容量已满的情况下，基于所述LRU算法，从所述缓存中的已存储数据中确定淘汰数据，并且，删除所述淘汰数据，以使所述缓存中的剩余容量足够存储所述目标文本和文本分析结果；将所述目标文本和所述文本分析结果关联存储至所述缓存中。在一个例子中，如图5所示，可以将元素：文本A-分析结果A从队列前端删除，并且，将目标文本和对应的文本分析结果：文本E-分析结果E从队列后端插入。如此，利用LRU算法可以实现根据数据的历史访问记录淘汰缓存中的数据，使得缓存得到合理、高效的利用。

根据又一种实施方式，参见图3，上述设计的算法框架中还可以包括后置正则匹配层34，其位于文本分析模型层33之后。类似地，可以在后置匹配层中预置后置正则表达式和分析结果之间的映射关系。

需要说明的是，在算法框架中还包括上述前置正则匹配层的情况下，后置正则匹配层相较前置匹配层的不同在于，后置正则匹配层中设定的后置正则表达式可以相对宽松。这是因为，当目标文本符合前置正则表达式时，会直接返回预设分析结果，而不经过文本分析模型进行分析，因此对前置正则表达式设定的严谨性要求极高，而经由后置正则匹配层的目标文本，已经过文本分析模型得到初步分析结果，在该目标文本匹配某个后置正则表达式的情况下，可以对该后置正则表达式对应的预设分析结果和经由文本分析模型得到的初步分析结果进行综合，进而得到综合分析结果。

在一个具体的例子中，上述映射关系可以包括下表2中示出的内容。

表2

基于后置正则匹配层中预置的映射关系，在上述步骤S230和步骤S240之间，还可以包括：判断所述目标文本是否符合预先设定的若干后置正则表达式；在符合所述若干后置正则表达式中某个表达式的情况下，综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果，得到针对目标文本的综合分类结果。相应地，在步骤S240可以包括：将所述目标文本和综合分类结果关联存储至所述缓存中。

根据一个例子，假定目标文本为“请关注公众号：XXXX，推荐同款好物”。基于表2示出的映射关系，可以确定该目标文本符合后置正则表达式(公众号)，并将对应的后置分析结果无效确定为该目标文本在后置正则匹配层中得到的分析结果。

进一步，可以综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果。在一个具体的实施例中，在两个分析结果一致的情况下，可以保留其中任意一个分析结果，作为综合分析结果。在另一个具体的实施例中，在两个分析结果不一致的情况下，可以对两个分析结果共同作为综合分析结果。在又一个具体的实施例中，当两个分析结果中的任意一个为文本无效时，将文本无效作为该目标文本的综合分析结果。在一个例子中，假定针对目标文本“请关注公众号：XXXX，推荐同款好物”，经由文本分析模型得到的文本分析结果为满意，而在后置匹配层中得到的分析结果为无效，则可以将无效确定为该目标文本的综合分析结果。

以上，可以确定出针对目标文本的综合分析结果。更进一步地，可以在步骤S240，将所述目标文本和综合分类结果关联存储至所述缓存中。另一方面，在目标文本不符合上述若干后置正则表达式中任一表达式的情况下，可以直接将经由文本分析模型预测得到的文本分析结果，作为目标文本的最终分析结果，并且，在步骤S240，将预测得到的文本分析结果和目标文本关联存储至缓存中。

综上，采用本说明书实施例披露的文本分析方法，至少使用缓存层和文本分析模型层构建算法框架，可以实现快速、准确地得到针对目标文本的文本分析结果。进一步地，在算法框架中引入前置或后置的正则匹配层，可以弥补文本分析模型对某些特征学习不足的情况，并且，当遇到待分析文本猛增的情况，如舆情爆发，可以及时通过正则匹配层实现人工干预，辅助提高文本分析的速度和准确度。

下面结合一个具体的实施例，对上述文本分析方法进行进一步说明。在这个具体的实施例中，所采用的算法框架包括图3中示出的缓存层31，前置正则匹配层32和文本分析模型层33。并且，其中缓存层31基于LRU算法，下述将基于LRU算法的缓存层简称为LRU缓存层；文本分析模型层包括利用Bert模型训练得到的文本分析模型，下述用Bert模型指代该文本分析模型；此外还将前置正则匹配层32简称为正则匹配层。

具体地，图6示出根据另一个实施例的文本分析方法的流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置或设备或系统或计算平台，等等。如图6所示，所述方法包括以下步骤：

首先，在步骤S61，获取待分析的原始文本。并且，在步骤S62，对原始文本进行预处理，得到目标文本。

在一个例子中，假定原始文本为：凑合用吧，相应得到的目标文本可以为：凑合用。在另一个例子中，假定原始文本为：很满意的一次购物呢，五星好评呀。相应得到的目标文本可以为：很满意的一次购物五星好评。在又一个例子中，假定原始文本为：怎么会有这么好用的产品，简直出乎意料啊！！！相应得到的目标文本可以为：怎么会有这么好用的产品简直出乎意料。

接着，在步骤S63，查询LRU缓存层中是否存在与所述目标文本匹配的匹配文本。并且，在存在的情况下，执行步骤S64；在不存在的情况下，执行步骤S65。

具体在步骤S64，在存在所述匹配文本的情况下，从所述LRU缓存层中获取与所述匹配文本关联的分析结果，作为所述目标文本的文本分析结果。在一个例子中，假定LRU缓存层中存储有文本样例：凑合用，和对应的分析结果样例：一般满意。并且，假定目标文本为：凑合用。则可以从LRU缓存层中获取一般满意作为该目标文本的文本分析结果。至此当前流程结束。

在步骤S65，在不存在所述匹配文本的情况下，将所述目标文本输入正则匹配层，判断该目标文本是否符合预先设定的若干正则表达式。并且，在符合若干前置正则表达式中某个表达式的情况下，执行步骤S66；在均不符合的情况下，执行步骤S67。

具体在步骤S66，在符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

在一个例子中，假定目标文本为：很满意的一次购物五星好评。基于表1中示出的映射关系，可以确定该目标文本符合正则表达式(很满意&好评)，相应可以将满意确定为该目标文本的文本分析结果。至此当前流程结束。

在步骤S67，在均不符合的情况下，将所述目标文本输入Bert模型中。其中Bert模型基于多个历史文本和对应的多个文本标签而预先训练。在一个例子中，假定目标文本为：怎么会有这么好用的产品简直出乎意料，可以得到文本分析结果：十分满意。

在步骤S67之后，执行步骤S68，将所述目标文本和所述文本分析结果关联存储至所述LRU缓存层中。需要理解的是，在存储过程中，可能涉及到部分已存储数据存储位置的变化，还可能涉及到部分数据的淘汰，同时，目标文本和文本分析结果的存储位置也是基于LRU算法而确定的，在此不作赘述。

在图6示出的实施例中，分别采用LRU缓存层、正则匹配层和文本分析模型层作为文本分析算法框架的第一层、第二层和第三层，可以实现及时、快速、准确地分析出针对目标文本的文本分析结果。

与上述实施例中所提供的文本分析方法相对应的，本说明书实施例还披露用于文本分析的装置。

图7示出根据一个实施例的文本分析装置的结构示意框图。如图7所示，所述装置700包括：

文本获取单元710，配置为获取待分析的目标文本；缓存查询单元720，配置为查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签；预测单元730，配置为在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练；存储单元740，配置为将所述目标文本和所述文本分析结果关联存储至所述缓存中。

在一个实时例中，所述装置700还包括：预加载单元740，配置为将所述多个历史文本和对应的多个文本标签，预先加载至所述缓存中。

在一个实施例中，所述文本获取单元710具体配置为：获取待分析的原始文本；对所述原始文本进行预处理，得到所述目标文本，其中所述预处理包括以下中的一种或多种：去除字母、去除数字、去除标点符号、去除表情符号、去除空格。

在一个实施例中，所述缓存查询单元720具体配置为：查询所述缓存中是否存在与所述目标文本相同的匹配文本。

在一个实施例中，所述装置700还包括：结果获取单元750，配置为在存在所述匹配文本的情况下，从所述缓存中获取与所述匹配文本关联的文本标签或分析结果，作为所述目标文本的文本分析结果。

在一个实施例中，所述预测单元730具体包括：判断子单元731，配置为在不存在所述匹配文本情况下，判断所述目标文本是否符合预先设定的若干前置正则表达式；预测子单元732，配置为在均不符合的情况下，将所述目标文本输入所述文本分析模型中。

进一步地，在一个具体的实施例中，所述预测单元730还包括：获取子单元733，配置为在符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

在一个实施例中，所述文本分析模型为BERT模型。

进一步地，在一个具体的实施例中，所述预测单元730具体配置为：在所述目标文本的字符数大于预定字符数的情况下，对所述目标文本的开头和结尾分别进行截取，并对截取的两部分字符进行拼接，得到具有所述预定字符数的拼接字符；将所述拼接字符输入所述文本分析模型中。

在一个具体的实施例中，所述预测单元730具体配置为：在所述目标文本的字符数小于预定字符数的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数小于所述目标文本的字符数；使用缺省字符填充所述相差的字符数，并与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；将所述第二拼接字符输入所述文本分析模型中。

在一个具体的实施例中，所述预测单元730具体配置为：在所述目标文本的字符数小于预定字符数的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数小于所述目标文本的字符数；基于所述相差的字符数对所述目标文本进行截取，并且，使用所述截取得到的字符与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；将所述第二拼接字符输入所述文本分析模型中。

在一个实施例中，所述装置700还包括：判断单元760，配置为判断所述目标文本是否符合预先设定的若干后置正则表达式；综合单元770，配置为在符合所述若干后置正则表达式中某个表达式的情况下，综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果，得到针对所述目标文本的综合分类结果；所述存储单元740具体配置为：将所述目标文本和所述综合分类结果关联存储至所述缓存中。

在一个实施例中，所述缓存基于最近最少使用LRU算法，所述存储单元740具体配置为：在所述缓存的容量已满的情况下，基于所述LRU算法，从所述缓存中的已存储数据中确定淘汰数据，并且，删除所述淘汰数据，以使所述缓存中的剩余容量足够存储所述目标文本和文本分析结果；将所述目标文本和所述文本分析结果关联存储至所述缓存中。

综上，采用本说明书实施例披露的文本分析装置，至少使用缓存层和文本分析模型层构建算法框架，可以实现快速、准确地得到针对目标文本的文本分析结果。进一步地，在算法框架中引入前置或后置的正则匹配层，可以弥补文本分析模型对某些特征学习不足的情况，并且，当遇到待分析文本猛增的情况，如舆情爆发，可以及时通过正则匹配层实现人工干预，辅助提高文本分析的速度和准确度。

如上，根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图7所描述的方法。

根据又一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图7所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种计算机执行的文本分析方法，包括：

获取待分析的目标文本；

查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签，所述缓存基于最近最少使用LRU算法；

在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练，所述文本分析模型为BERT模型；

判断所述目标文本是否符合预先设定的若干后置正则表达式；

在符合所述若干后置正则表达式中某个表达式的情况下，综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果，得到针对所述目标文本的综合分类结果；

将所述目标文本和所述综合分类结果关联存储至所述缓存中。

2.根据权利要求1所述的方法，其中，所述多个历史文本包括用户在社交平台或资讯平台中发布的文本，所述多个文本标签包括多个舆情标签；或者，

所述多个历史文本包括针对产品或服务的多条历史评论，所述多个文本标签对应多个满意度等级。

3.根据权利要求1所述的方法，其中，在所述查询缓存中是否存在与所述目标文本匹配的匹配文本之后，所述方法还包括：

在存在所述匹配文本的情况下，从所述缓存中获取与所述匹配文本关联的文本标签或分析结果，作为所述目标文本的文本分析结果。

4.根据权利要求1所述的方法，其中，所述在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，包括：

在不存在所述匹配文本情况下，判断所述目标文本是否符合预先设定的若干前置正则表达式；

在均不符合的情况下，将所述目标文本输入所述文本分析模型中；或者，

在符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

5.根据权利要求1所述的方法，其中，所述将所述目标文本输入文本分析模型中，包括：

在所述目标文本的字符数大于预定字符数的情况下，对所述目标文本的开头和结尾分别进行截取，并对截取的两部分字符进行拼接，得到具有所述预定字符数的拼接字符；

将所述拼接字符输入所述文本分析模型中。

6.根据权利要求1所述的方法，其中，所述将所述目标文本输入文本分析模型中，包括：

在所述目标文本的字符数小于预定字符数的情况下，对所述目标文本进行循环复制并且进行拼接，直到得到的第一拼接字符的字符数与所述预定字符数相差的字符数小于所述目标文本的字符数；

使用缺省字符填充所述相差的字符数，并与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；

将所述第二拼接字符输入所述文本分析模型中。

7.根据权利要求1所述的方法，其中，所述将所述目标文本输入文本分析模型中，包括：

基于所述相差的字符数对所述目标文本进行截取，并且，使用所述截取得到的字符与所述第一拼接字符进行拼接，得到具有所述预定字符数的第二拼接字符；

将所述第二拼接字符输入所述文本分析模型中。

8.根据权利要求1所述的方法，其中，所述将所述目标文本和所述综合分类结果关联存储至所述缓存中，包括：

在所述缓存的容量已满的情况下，基于所述LRU算法，从所述缓存中的已存储数据中确定淘汰数据，并且，删除所述淘汰数据，以使所述缓存中的剩余容量足够存储所述目标文本和文本分析结果；

9.一种计算机执行的文本分析装置，包括：

文本获取单元，配置为获取待分析的目标文本；

缓存查询单元，配置为查询缓存中是否存在与所述目标文本匹配的匹配文本，其中所述缓存中至少在初始状态存储有多个历史文本和对应的多个文本标签，所述缓存基于最近最少使用LRU算法；

预测单元，配置为在不存在所述匹配文本的情况下，将所述目标文本输入文本分析模型中，得到针对所述目标文本的文本分析结果，所述文本分析模型基于所述多个历史文本和对应的多个文本标签而预先训练，所述文本分析模型为BERT模型；

判断单元，配置为判断所述目标文本是否符合预先设定的若干后置正则表达式；

综合单元，配置为在符合所述若干后置正则表达式中某个表达式的情况下，综合预先设定的对应于所述某个表达式的分析结果和所述文本分析结果，得到针对所述目标文本的综合分类结果；

存储单元，配置为将所述目标文本和所述综合分类结果关联存储至所述缓存中。

10.根据权利要求9所述的装置，其中，所述多个历史文本包括用户在社交平台或资讯平台中发布的文本，所述多个文本标签包括多个舆情标签；或，

11.根据权利要求9所述的装置，其中，所述装置还包括：

结果获取单元，配置为在存在所述匹配文本的情况下，从所述缓存中获取与所述匹配文本关联的文本标签或分析结果，作为所述目标文本的文本分析结果。

12.根据权利要求9所述的装置，其中，所述预测单元具体包括：

判断子单元，配置为在不存在所述匹配文本情况下，判断所述目标文本是否符合预先设定的若干前置正则表达式；

预测子单元，配置为在均不符合的情况下，将所述目标文本输入所述文本分析模型中；

获取子单元，配置为在符合所述若干前置正则表达式中某个表达式的情况下，将预先设定的对应于所述某个表达式的分析结果，作为所述目标文本的文本分析结果。

13.根据权利要求9所述的装置，其中，所述预测单元具体配置为：

将所述拼接字符输入所述文本分析模型中。

14.根据权利要求9所述的装置，其中，所述预测单元具体配置为：

将所述第二拼接字符输入所述文本分析模型中。

15.根据权利要求9所述的装置，其中，所述预测单元具体配置为：

将所述第二拼接字符输入所述文本分析模型中。

16.根据权利要求9所述的装置，其中，所述存储单元具体配置为：

17.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。