CN112800747A

CN112800747A - 文本处理方法、装置及计算机设备

Info

Publication number: CN112800747A
Application number: CN202110144807.2A
Authority: CN
Inventors: 胡韬; 熊军; 张继晟
Original assignee: Hubo Network Technology Beijing Co ltd
Current assignee: Hubo Network Technology Beijing Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-14

Abstract

本发明实施例公开了一种文本处理方法、装置及计算机设备，所述方法包括：将待处理文本拆分为多个分句；将所有分句输入情感分类模型，以获得每个分句对应各类情感的概率；根据每个分句对应各类情感的概率计算各分句的置信分；将置信分大于或者等于预设阈值的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。通过上述方案，将输入的文本拆分为分句，缩短文本的同时避免了句子结构的破坏；在对分句进行处理时，引入了置信分这一客观数据对分句进行筛选，而非人为的基于某种规则的选择，更具一般性和适用性。

Description

文本处理方法、装置及计算机设备

技术领域

本发明涉及文本识别领域，尤其涉及一种文本处理方法、装置及计算机设备。

背景技术

目前，主流的深度学习网络模型能够处理的文本数据往往是定长数据，如512字，然而应用到实际中时经常会需要处理超出长度限制的数据，这一问题在自然语言处理中尤为突出。实际应用中，增加模型可处理长度会二次方增加显存开销。在显存开销受限的情况下，有时也会出现让定长文本的分类模型处理大量大段文本的情况。

现有技术的一个朴素的方法是对文本做简单的截取，例如取头512字或尾512字，这种方法比较粗暴，会破坏句子的结构，存在失去重要信息的风险。

因此，现在亟需一种能够把文本缩短到合适的长度，同时保留语句结构和重要信息的文本数据处理方法。

发明内容

针对现有技术中存在的弊端，本发明提供了一种文本处理方法、装置及计算机设备，具体方案如下：

第一方面，本公开实施例提供了一种文本处理方法，所述方法包括：

将待处理文本拆分为多个分句；

将所有分句输入情感分类模型，以获得每个分句对应各类情感的概率；

根据每个分句对应各类情感的概率计算各分句的置信分；

将置信分大于或者等于预设阈值的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。

根据本公开的一种具体实施方式，所述方法还包括预先建立所述情感分类模型，建立所述情感分类模型的步骤包括：

建立初始神经网络模型；

将不同情感类型对应的多个样本文本及情感类型标签，输入所述初始神将网络模型进行训练，得到基线情感分类模型；

将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型。

根据本公开的一种具体实施方式，所述将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型的步骤，包括：

将所有样本分句输入所述基线情感分类模型，以获得每个样本分句对应各类情感的概率；

根据每个样本分句对应各类情感的概率计算各样本分句的置信分；

利用置信分大于或者等于预设阈值的样本分句对所述基线情感分类模型进行训练，得到所述情感分类模型。

根据本公开的一种具体实施方式，全部情感类型的数量为至少2个，每个分句对应各类情感的概率之和为1。

根据本公开的一种具体实施方式，置信分的计算步骤包括：

利用公式Score＝exp(p₁ log p₁+p₂ log p₂+…+p_n log p_n)分别计算各分句的置信分，其中，Score为置信分，所述置信分为各类情感的概率负信息熵的指数，p₁，p₂，...，p_n为情感的概率，exp为指数函数。

根据本公开的一种具体实施方式，所述置信分的预设阈值的取值范围是0.6-0.8。

第二方面，本公开实施例还提供了一种文本处理装置，所述装置包括：

拆分模块，用于将待处理文本拆分为多个分句；

概率获取模块，用于将所有分句输入情感分类模型，以获得每个分句对应各类情感的概率；

置信分计算模块，用于根据每个分句对应各类情感的概率计算各分句的置信分；

输出模块，用于将置信分大于或者等于预设阈值的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。

根据本公开的一种具体实施方式，所述装置还包括：

模型建立模块，用于建立初始神经网络模型；

第一训练模块，用于将不同情感类型对应的多个样本文本及情感类型标签，输入所述初始神将网络模型进行训练，得到基线情感分类模型；

第二训练模块，用于将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型。

第三方面，本公开实施例还提供了一种计算机设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行第一方面所述的文本处理方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面所述的文本处理方法。

本公开实施例提供的文本处理方法、装置及计算机设备，将待处理的文本按照一定规则拆分为多个分句；将所有分句输入情感分类模型，获得情感分类模型预测的每个分句对应情感的概率；根据每个分句对应各类情感的概率计算各个分句的置信分；将置信分大于或等于预设阈值的分句筛选出来，按照顺序拼接为整句输出。通过上述方案，将输入的文本拆分为分句，缩短文本的同时避免了重要信息的遗漏和语句结构的破坏；在对分句进行处理时，引入了置信分这一客观数据对分句进行筛选，而非人为的基于某种规则的选择，更具一般性和适用性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本公开实施例提供的一种文本处理方法的流程示意图；

图2示出了本公开一种实施方式提供的一种文本处理方法的部分流程示意图；

图3示出了本公开实施例提供的一种文本处理装置的模块框图；

图4示出了本公开一种实施方式提供的一种文本处理装置的部分模块框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

参见图1，为本公开实施例提供的一种文本处理方法的流程示意图。如图1所示，所述文本处理方法主要包括以下步骤：

S101，将待处理文本拆分为多个分句；

具体地，按照一定的规则将待处理文本拆分成分句。该规则可以是使用者根据自己的喜好设定的，也可以是本领域公认的具有较好效果的拆分方法，这里不做限定。

在一个具体的实施方式中，将待处理的文本根据标点符号进行拆分，可以根据句号、问号和感叹号等进行拆分，或者根据逗号进行拆分，使用者可以根据需要自行选择。

S102，将所有分句输入情感分类模型，以获得每个分句对应各类情感的概率；

具体实施时，将所有的分句输入情感分类模型中，由情感分类模型对每个分句对应的各类情感的概率进行预测。在这里，情感分类模型对每个分句至少进行两种情感的概率预测。

在一个具体的实施方式中，使用情感分类模型对待处理分句进行愤怒、平静和高兴三种情感的概率预测。例如在三分类目标中得到愤怒、平静和高兴三种情感对应的概率分别为0.7、0.1和0.2。在具体实施的时候，也可以选择对其他情感类型进行预测，预测的情感类型的数量也可以根据需要进行设定。例如对憎恶、开心和平静三种情感的概率进行预测，或者对怨恨、愤怒、平静和高兴四种情感的概率进行预测，这里不做限定。

S103，根据每个分句对应各类情感的概率计算各分句的置信分；

具体实施时，为了保证模型输出情感预测的准确性，需要对模型的情感概率预测结果进行迷惑程度检验。

在一个具体实施方式中，利用置信分对预测结果进行检验，置信分越高，迷惑程度越低，预测结果越可信；反之，置信分越低，迷惑程度越高，预测结果越不可信。这里的置信分是分句中各类情感的概率负信息熵的指数。当然，也可以根据实际需要定义其他数值作为置信分，对预测结果进行检验，这里不做限定。

S104，将置信分大于或者等于预设阈值的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。

为了选出迷惑程度较低的比较能代表文本情感的分句，在这里可以设置一个临界的置信分作为筛选条件，将所选择的临界的置信分设定为置信分的预设阈值。具体地，置信分的预设阈值可以在实际使用中依据实际的情况灵活调整，这里不做限定。在一个具体的实施方式中，将所有置信分低于预设阈值的分句直接删除，保留所有置信分大于或等于预设阈值的分句，重新将保留的分句按照句子顺序拼接为整句输出。本实施方式中，置信分的预设阈值取0.7。

本公开实施例提供的文本处理方法，将待处理的文本按照一定规则拆分为多个分句；将所有分句输入情感分类模型，获得情感分类模型预测的每个分句对应情感的概率；根据每个分句对应各类情感的概率计算各个分句的置信分；将置信分大于或等于预设阈值的分句筛选出来，按照顺序拼接为整句输出。通过上述方案，将输入的文本拆分为分句，缩短文本的同时避免了重要信息的遗漏和语句结构的破坏；在对分句进行处理时，引入了置信分这一客观数据对分句进行筛选，而非人为的基于某种规则的选择，更具一般性和适用性。

在一个具体的实施例中，还是以三分类目标为例，首先，向情感分类模型中输入以下分句：

唉你好。唉那个那个微信公众号，那个南方电网那个公众号，呃现在升级进不去了吗？对啊。呃。……呃你帮我看一下那个十二月份的？噢那您先帮我看一下那个电子。

情感分类模型对各分句对应各类概率的预测如下：

唉你好。(愤怒：0.31，平静：0.37，开心：0.32)

唉那个那个微信公众号，那个南方电网那个公众号，呃现在升级进不去了吗？(愤怒：0.2，平静：0.78，开心：0.02)

对啊。(愤怒：0.35，平静：0.36，开心：0.29)

呃。(愤怒：0.33，平静：0.34，开心：0.33)

……

呃你帮我看一下那个十二月份的？(愤怒：0.03，平静：0.92，开心：0.05)

噢那您先帮我看一下那个电子。(愤怒：0.005，平静：0.98，开心：0.015)

然后，计算各分句的置信分：

唉你好。(0.334)

唉那个那个微信公众号，那个南方电网那个公众号，呃现在升级进不去了吗？(0.55)

对啊。(0.36)

呃。(0.33)

……

呃你帮我看一下那个十二月份的？(0.71)

噢那您先帮我看一下那个电子。(0.90)

设置置信分的预设阈值为0.7，将置信分大于等于0.7的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。输出结果为：呃你帮我看一下那个十二月份的？噢那您先帮我看一下那个电子。

参见图2，为本公开一种实施方式提供的一种文本处理方法的部分流程示意图，本实施方式主要是对文本处理之前训练情感分类模型的过程作了进一步限定。如图2所示，在S102，所述文本处理方法还包括预先建立所述情感分类模型，建立所述情感分类模型的步骤包括：

S201，建立初始神经网络模型；

具体地，初始神经网络模型可以是bert模型、text cnn(Text ConvolutionalNeural Networks，文本卷积神经网络)模型或者text rnn(Text Recurrent NeuralNetwork，文本循环神经网络)模型。当然，也可以是其他类型的神经网络模型，这里不做限定。

S202，将不同情感类型对应的多个样本文本及情感类型标签，输入所述初始神将网络模型进行训练，得到基线情感分类模型；

在一个具体的实施方式中，使用bert模型二阶段微调方案对初始神经网络模型进行训练。bert模型是一个开放的无监督模型，通过对大量的语句做完形填空训练得到，bert模型有很强的语义理解能力，可以应用到文本处理分类、主题抽取等多种语义理解任务。

在本实施方式中，使用数字电网开发者大会提供的情感分类数据集作为样本输入，其中，情感分类数据集中的每个样本文本都有一个情感标签作为标注。当然也可以使用其他文本数据集作为样本输入。

具体实施时，首先让bert模型使用情感分类数据集的样本文本做完形填空训练，然后在分类任务上进行微调，得到基线情感分类模型。

S203，将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型。

具体地，将情感分类数据集中的每个样本都根据一定规则进行拆分，将拆分后的分句输入基线情感分类模型中，基线情感分类模型对每个字句进行各类情感的概率的预测；计算每个字句各类情感概率的置信分，将置信分大于或等于预设阈值的分句筛选出来；利用筛选的分句对基线情感分类模型进行优化训练，得到情感分类模型。

具体地，将拆分好的所有分句输入基线情感分类模型中，由基线情感分类模型预测各个分句对应每种情感的概率。在这里，基线情感分类模型对每个分句至少进行两种情感的概率预测。

在一个具体实施方式中，利用置信分对预测结果进行检验，置信分越高，迷惑程度越低，预测结果越可信；反之，置信分越低，迷惑程度越高，预测结果越不可信。这里的置信分是分句中各类情感的概率负信息熵的指数。当然，也可以根据实际需要定义其他数值作为置信分，对预测结果进行检验，这里不做限定。在本实施例中，计算置信分的步骤由基线情感分类模型完成。当然，置信分的计算也可以在处理器等元件上实现，这里不做限定。

具体地，在实际使用中根据情况调整最优参数作为置信分的预设阈值。置信分大于或者等于预设阈值说明该分句的情感倾向较明显，迷惑程度低。在本实施例中，将置信分低于预设阈值的分句删除。在其他的实施方式中，也可以选择将置信分低于预设阈值的分句保留。

具体实施时，将筛选出的置信分大于等于预设阈值的所有分句再次输入到基线情感分类模型中。由基线情感分类模型再对各分句进行各类情感的概率预测，并对基线情感分类模型进行优化训练，以得到更具准确性和一般性的情感分类模型。

具体地，以三分类目标为例，即情感分类模型可以对每个分句的平静、愤怒及高兴的倾向进行概率预测。平静、愤怒及高兴的对应概率之和为1。在具体实施时，情感分类模型可以识别的情感的类型至少为两种，这样可以提高情感分类模型进行情感概率预测的容错率。

根据本公开的一种具体实施方式，置信分的计算步骤包括：

具体实施时，置信分计算过程中会遇到两种极端情况，即置信分会有一个最低值和一个最高值。

仍然以三分类目标为例，置信分最低，即最迷惑的情况，情感分类模型对三种情感都给出一样的概率

此时

所以置信分的最低值是

置信分最高，完全不迷惑的情况，情感分类模型对一种情感给出100％的概率，而其他两个的情感概率预测为0，Score＝exp(1 log 1+0 log 0+0 log 0)＝1，所以置信分的最高值是1。

具体地，置信分的取值范围是

而在实际使用过程中，置信分的预设阈值的取值范围在0.6-0.8之间效果更好。

通过上述方案，将输入的文本拆分为分句，缩短文本的同时避免了重要信息的遗漏和语句结构的破坏；在对分句进行处理时，引入了置信分这一客观数据对分句进行筛选，而非人为的基于某种规则的选择，更具一般性和适用性。

实施例2

参见图3，为本公开实施例提供的一种文本处理装置的模块框图。如图3所示，所述文本处理装置300包括：

拆分模块301，用于将待处理文本拆分为多个分句；

概率获取模块302，用于将所有分句输入情感分类模型，以获得每个分句对应各类情感的概率；

置信分计算模块303，用于根据每个分句对应各类情感的概率计算各分句的置信分；

输出模块304，用于将置信分大于或者等于预设阈值的分句按顺序拼接为整句，作为所述待处理文本的处理结果输出。

在上述实施例的基础上，本公开一种实施方式还提供一种文本处理装置的部分模块框图。如图4所示，所述文本处理装置300还包括：

模型建立模块305，用于建立初始神经网络模型；

第一训练模块306，用于将不同情感类型对应的多个样本文本及情感类型标签，输入所述初始神将网络模型进行训练，得到基线情感分类模型；

第二训练模块307，用于将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型。

综上所述，本公开实施例提供的文本处理装置，实现了将输入的文本拆分为分句，缩短文本的同时避免了重要信息的遗漏和语句结构的破坏；在对分句进行处理时，引入了置信分这一客观数据对分句进行筛选，而非人为的基于某种规则的选择，更具一般性和适用性。所提供的文本处理装置的具体实施过程可以参见上述图1和图2所示的实施例提供的文本处理方法的具体实施过程，在此不再一一赘述。

此外，本公开实施例还提供了一种计算机设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行图1所示的文本处理方法。

另外，本公开实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行图1所示的文本处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，所述方法包括：

将待处理文本拆分为多个分句；

根据每个分句对应各类情感的概率计算各分句的置信分；

2.根据权利要求1所述的文本处理方法，其特征在于，所述方法还包括预先建立所述情感分类模型，建立所述情感分类模型的步骤包括：

建立初始神经网络模型；

3.根据权利要求2所述的文本处理方法，其特征在于，所述将所述多个样本文本拆分为样本分句并输入所述基线情感分类模型进行模型优化训练，得到所述情感分类模型的步骤，包括：

4.根据权利要求2所述的文本处理方法，其特征在于，全部情感类型的数量为至少2个，每个分句对应各类情感的概率之和为1。

5.根据权利要求1所述的文本处理方法，其特征在于，置信分的计算步骤包括：

利用公式Score＝exp(p₁log p₁+p₂log p₂+…+p_nlog p_n)分别计算各分句的置信分，其中，Score为置信分，所述置信分为各类情感的概率负信息熵的指数，p₁，p₂，...，p_n为情感的概率，exp为指数函数。

6.根据权利要求1所述的文本处理方法，其特征在于，所述置信分的预设阈值的取值范围是0.6-0.8。

7.一种文本处理装置，其特征在于，所述装置包括：

拆分模块，用于将待处理文本拆分为多个分句；

8.根据权利要求7所述的文本处理装置，其特征在于，所述装置还包括：

模型建立模块，用于建立初始神经网络模型；

9.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行权利要求1至6中任一项所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的文本处理方法。