CN114943339A

CN114943339A - 基于互联网社区的文本推理方法、装置及存储介质

Info

Publication number: CN114943339A
Application number: CN202210316044.XA
Authority: CN
Inventors: 刘堡萱; 文成明
Original assignee: Shenzhen Baichuan Shuan Technology Co ltd
Current assignee: Shenzhen Baichuan Shuan Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-08-26

Abstract

本发明是关于一种基于互联网社区的文本推理方法、装置及存储介质，方法包括：获取互联网社区中的多个待处理文本；确定每个待处理文本的文本长度所属的目标长度区间；从多个文本推理服务器组中查找出与所述目标长度区间匹配的目标文本推理服务器组；将所述每个待处理文本发送至对应的目标文本推理服务器组；针对每个目标文本推理服务器组，根据预先确定的与其对应的单次最大文本推理总条数，接收待处理文本，并对每个待处理文本进行推理。通过该技术方案，尽可能减少冗余计算，从而提高模型的推理速度。

Description

基于互联网社区的文本推理方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于互联网社区的文本推理方法、装置及存储介质。

背景技术

Bert是2018年提出的用于自然语言处理的预训练模型，该模型具有 110M的参数量，无论是训练还是预测耗时都非常之久。但由于Bert预训练和微调的方式会获得远超其他模型的效果，仍然有非常多的应用场景，因此如何降低Bert的预测成本至关重要。为了优化推理时延，大部分方案都是采用GPU和批量喂数据的方式来降低时延。

互联网的文本处理场景，是一个高并发的场景，每秒钟需要推理成百上千条文本。现有技术一般是将待处理的文本条数均衡的分布给多台服务器，让每台服务器负载均衡，从而能够达到降低时延，快速推理出结果的目的。

使用Bert原有的推理流程耗时很长，预测一条待处理的文本平均耗时 10ms以上，采用GPU和批量喂数据的方式能将时延降低到6ms左右。但是在这种高并发场景下，如果想在此之上进一步降低时延，就只能不断的增加服务器的数量，不过由于GPU昂贵的价格，这会使得机器成本进一步增高。

同时，在互联网产品文本处理场景下，往往待处理的每条文本的长度分布不均匀，使用固定的最长句子长度会造成大量的冗余计算。因此如果想进一步降低时延、减少冗余计算至关重要。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于互联网社区的文本推理方法、装置及存储介质，在输出结果精度不变的前提下，可以实现大幅加快待处理文本的推理速度。

根据本发明实施例的第一方面，提供一种基于互联网社区的文本推理方法，所述方法包括：

获取互联网社区中的多个待处理文本；

确定每个待处理文本的文本长度所属的目标长度区间；

从多个文本推理服务器组中查找出与所述目标长度区间匹配的目标文本推理服务器组；

将所述每个待处理文本发送至对应的目标文本推理服务器组；

针对每个目标文本推理服务器组，根据预先确定的与其对应的单次最大文本推理总条数，接收待处理文本，并对每个待处理文本进行推理。

在一个实施例中，优选地，预先确定每个目标文本推理服务器组对应的单次最大文本推理总条数的过程包括：

针对每个目标文本推理服务器组，使用测试推理文本进行推理测试，将每个所述目标文本推理服务器组接收到的测试推理文本的最大长度作为其最大文本推理长度；

根据所述最大文本推理长度，调整所述目标文本推理服务器组对应的文本推理总条数；

确定每个文本推理总条数下，推理过程所对应的时延；

在预设的最大时延范围内，选取数值最大的文本推理总条数作为所述单次最大文本推理总条数。

在一个实施例中，优选地，所述数值最大的文本推理总条数为2的指数倍。

在一个实施例中，优选地，所述确定每个待处理文本的文本长度所属的目标长度区间，包括：

根据获取的所有待处理文本的文本长度，按照预设文本长度间隔，将所有文本长度划分为多个长度区间，其中，每个长度区间对应一组文本推理服务器；

确定每个待处理文本的文本长度所属的目标长度区间。

在一个实施例中，优选地，所述多个长度区间的划分方式包括等频划分。

根据本发明实施例的第二方面，提供一种基于互联网社区的文本推理装置，所述装置包括：

获取模块，用于获取互联网社区中的多个待处理文本；

确定模块，用于确定每个待处理文本的文本长度所属的目标长度区间；

查找模块，用于从多个文本推理服务器组中查找出与所述目标长度区间匹配的目标文本推理服务器组；

发送模块，用于将所述每个待处理文本发送至对应的目标文本推理服务器组；

处理模块，用于针对每个目标文本推理服务器组，根据预先确定的与其对应的单次最大文本推理总条数，接收待处理文本，并对每个待处理文本进行推理。

在一个实施例中，优选地，所述处理模块包括：

处理单元，用于针对每个目标文本推理服务器组，使用测试推理文本进行推理测试，将每个所述目标文本推理服务器组接收到的测试推理文本的最大长度作为其最大文本推理长度；

调整单元，用于根据所述最大文本推理长度，调整所述目标文本推理服务器组对应的文本推理总条数；

第一确定单元，用于确定每个文本推理总条数下，推理过程所对应的时延；

选取单元，用于在预设的最大时延范围内，选取数值最大的文本推理总条数作为所述单次最大文本推理总条数。

在一个实施例中，优选地，所述确定模块包括：

划分单元，用于根据获取的所有待处理文本的文本长度，按照预设文本长度间隔，将所有文本长度划分为多个长度区间，其中，每个长度区间对应一组文本推理服务器；

第二确定单元，用于确定每个待处理文本的文本长度所属的目标长度区间。

根据本发明实施例的第三方面，提供一种基于互联网社区的文本推理装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取互联网社区中的多个待处理文本；

确定每个待处理文本的文本长度所属的目标长度区间；

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现如第二方面的实施例中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，使用等频分布的方式将文本分配给不同的服务器进行处理，在接收不同长度文本的服务器上使用不同的最大文本推理总条数batch_size，这样，同时考虑文本的长度和个数，能减少服务器内的补零数，最大化的利用GPU的显存，同时能尽可能减少冗余计算，从而提高模型的推理速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于互联网社区的文本推理方法的流程图。

图2是根据一示例性实施例示出的一种基于互联网社区的文本推理方法中步骤S105的流程图。

图3是根据一示例性实施例示出的一种基于互联网社区的文本推理方法中步骤S102的流程图。

图4是根据一示例性实施例示出的一种基于互联网社区的文本推理方法的具体流程图。

图5是根据一示例性实施例示出的一种基于互联网社区的文本推理装置的框图。

图6是根据一示例性实施例示出的一种基于互联网社区的文本推理装置中处理模块的框图。

图7是根据一示例性实施例示出的一种基于互联网社区的文本推理装置中确定模块52的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

Batch_size：服务器的模型进行推理时为了利用GPU进行加速，会同时推理多条数据，这一批数据的待处理文本条数即为Batch_size。

Max_seq_len：服务器的模型进行推理时为了利用GPU进行加速，会同时推理多条数据，这一批数据中最长的句子长度即为Max_seq_len。

如图1所示，根据本发明实施例的第一方面，提供一种基于互联网社区的文本推理方法，所述方法包括：

步骤S101，获取互联网社区中的多个待处理文本；

步骤S102，确定每个待处理文本的文本长度所属的目标长度区间；

步骤S103，从多个文本推理服务器组中查找出与所述目标长度区间匹配的目标文本推理服务器组；

步骤S104，将所述每个待处理文本发送至对应的目标文本推理服务器组；将对应长度的文本分配给对应的服务器组，就能实现同一服务器内文本推理过程中最小补零的条件。同时由于不同长度的文本所消耗的推理时间不同，所以接收较长文本的服务器组需要布置更多的服务器，才能使每个服务器组的文本的等待时间尽可能的减少。

步骤S105，针对每个目标文本推理服务器组，根据预先确定的与其对应的单次最大文本推理总条数，接收待处理文本，并对每个待处理文本进行推理。针对每个文本推理服务器组，预先确定一个最合适的单次最大文本推理总条数batch_size与该服务器接收到文本的最大长度匹配，能够在最大时延内，实现在一个推理批次中处理最多条数的文本。

本发明实施例中，根据待处理文本的文本长度将文本分配给不同的服务器进行处理，在接收不同长度文本的服务器上使用不同的最大文本推理总条数batch_size，这样，同时考虑文本的长度和个数，能减少服务器内的补零数，最大化的利用GPU的显存，同时能尽可能减少冗余计算，从而提高模型的推理速度。

服务器可以使用模型进行推理，由于每一个接收不同长度文本的服务器的输入的文本长度和个数都不同，对于不能接收动态输入文本长度和个数的模型，就需要针对不同服务器的接收输入的文本长度和个数，生成不同输入的模型。如使用的模型是可以接收动态输入文本长度和个数的模型，则所有服务器的模型可以相同。

如图2所示，在一个实施例中，优选地，预先确定每个目标文本推理服务器组对应的单次最大文本推理总条数的过程包括：

步骤S201，针对每个目标文本推理服务器组，使用测试推理文本进行推理测试，将每个所述目标文本推理服务器组接收到的测试推理文本的最大长度作为其最大文本推理长度；

步骤S202，根据所述最大文本推理长度，调整所述目标文本推理服务器组对应的文本推理总条数；

步骤S203，确定每个文本推理总条数下，推理过程所对应的时延；

步骤S204，在预设的最大时延范围内，选取数值最大的文本推理总条数作为所述单次最大文本推理总条数。

在接收不同长度文本的服务器上进行测试，即控制max_seq_len为当前服务器接收文本的最大长度，改变batch_size的大小，找到每个batch所用推理的时延，在时延在最大时延范围内，取最大的batch_size，其中batch_size 的值必须为2的指数倍。

如图3所示，在一个实施例中，优选地，步骤S102包括：

步骤S301，根据获取的所有待处理文本的文本长度，按照预设文本长度间隔，将所有文本长度划分为多个长度区间，其中，每个长度区间对应一组文本推理服务器；

步骤S302，确定每个待处理文本的文本长度所属的目标长度区间。

长度区间间隔越小，后面服务器需要补的0越少。然而长度区间间隔过小又容易造成处理后面接收不同长度的服务器组数量变多。因此，需要根据输入文本的长度的特征分布，选择一个合适的间隔组。这个间隔组可以结合输入文本的长度分布，尽量使每一个服务器组分配到同一时间段数量相似的文本个数，即等频分布。

下面以一个具体实施例详细说明本发明的上述技术方案。

如图4所示，基于互联网社区的文本推理方法具体包括：负载均衡和推理流程：

在负载均衡阶段：

步骤100，获取待推理文本；

步骤211，判断文本长度是否大于a，当小于等于a时，则进入步骤212，否则，进入步骤213。

步骤212，将待推理文本发送给接收长度为0-a之间的服务器组。

步骤213，判断文本长度是否大于b，当小于等于b时，则进入步骤214，否则，进入步骤215。

步骤214，将待推理文本发送给接收长度为a-b之间的服务器组。

步骤215，判断文本长度是否大于n，当小于等于n时，进入步骤216，否则，进入步骤217。

步骤216，将待推理文本发送给接收长度为m-n之间的服务器组。

步骤217，将待推理文本发送给接收长度为n以上的服务器组。

在推理阶段：

步骤311，接收文本长度为0-a之间的服务器组。

步骤312，在接收长度为0-a之间的服务器组上进行推理。

步骤313，接收文本长度为a-b之间的服务器组。

步骤314，在接收长度为a-b之间的服务器组上进行推理。

步骤315，接收文本长度为m-n之间的服务器组。

步骤316，在接收长度为m-n之间的服务器组上进行推理。

步骤317，接收文本长度为n以上的服务器组。

步骤318，在接收长度为n以上的服务器组上进行推理。

步骤400，事先根据每个服务器组中最长文本的长度，测试出单次最大文本推理总条数。

如图5所示，根据本发明实施例的第二方面，提供一种基于互联网社区的文本推理装置，所述装置包括：

获取模块51，用于获取互联网社区中的多个待处理文本；

确定模块52，用于确定每个待处理文本的文本长度所属的目标长度区间；

查找模块53，用于从多个文本推理服务器组中查找出与所述目标长度区间匹配的目标文本推理服务器组；

发送模块54，用于将所述每个待处理文本发送至对应的目标文本推理服务器组；

处理模块55，用于针对每个目标文本推理服务器组，根据预先确定的与其对应的单次最大文本推理总条数，接收待处理文本，并对每个待处理文本进行推理。

如图6所示，在一个实施例中，优选地，所述处理模块55包括：

处理单元61，用于针对每个目标文本推理服务器组，使用测试推理文本进行推理测试，将每个所述目标文本推理服务器组接收到的测试推理文本的最大长度作为其最大文本推理长度；

调整单元62，用于根据所述最大文本推理长度，调整所述目标文本推理服务器组对应的文本推理总条数；

第一确定单元63，用于确定每个文本推理总条数下，推理过程所对应的时延；

选取单元64，用于在预设的最大时延范围内，选取数值最大的文本推理总条数作为所述单次最大文本推理总条数。

如图7所示，在一个实施例中，优选地，所述确定模块52包括：

划分单元71，用于根据获取的所有待处理文本的文本长度，按照预设文本长度间隔，将所有文本长度划分为多个长度区间，其中，每个长度区间对应一组文本推理服务器；

第二确定单元72，用于确定每个待处理文本的文本长度所属的目标长度区间。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取互联网社区中的多个待处理文本；

确定每个待处理文本的文本长度所属的目标长度区间；

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于互联网社区的文本推理方法，其特征在于，所述方法包括：

获取互联网社区中的多个待处理文本；

确定每个待处理文本的文本长度所属的目标长度区间；

2.根据权利要求1所述的方法，其特征在于，预先确定每个目标文本推理服务器组对应的单次最大文本推理总条数的过程包括：

确定每个文本推理总条数下，推理过程所对应的时延；

3.根据权利要求2所述的方法，其特征在于，所述数值最大的文本推理总条数为2的指数倍。

4.根据权利要求1所述的方法，其特征在于，所述确定每个待处理文本的文本长度所属的目标长度区间，包括：

确定每个待处理文本的文本长度所属的目标长度区间。

5.根据权利要求1所述的方法，其特征在于，所述多个长度区间的划分方式包括等频划分。

6.一种基于互联网社区的文本推理装置，其特征在于，所述装置包括：

获取模块，用于获取互联网社区中的多个待处理文本；

7.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

8.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

9.一种基于互联网社区的文本推理装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取互联网社区中的多个待处理文本；

确定每个待处理文本的文本长度所属的目标长度区间；

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。