CN114386436A

CN114386436A - 文本数据的分析方法、模型训练方法、装置及计算机设备

Info

Publication number: CN114386436A
Application number: CN202210074604.5A
Authority: CN
Inventors: 姜鹏; 高鹏; 谯轶轩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-22
Anticipated expiration: 2042-01-21
Also published as: WO2023137918A1; CN114386436B

Abstract

本申请公开了一种文本数据的分析方法、模型训练方法、装置及计算机设备，该分析方法获取待处理的文本数据和文本数据对应的第一情感标签；文本数据中包括多个单词；将文本数据和第一情感标签输入至文本分析模型，通过文本分析模型提取文本数据中的情感特征语句，得到第一输出概率和第二输出概率；第一输出概率用于表征文本数据中的各个单词为情感特征语句的起始单词的预测概率，第二输出概率用于表征文本数据中的各个单词为情感特征语句的终止单词的预测概率；根据第一输出概率和第二输出概率，从文本数据中确定情感特征语句。该分析方法能够从文本数据中提取出情感特征语句，且提取效率和准确度较高。本申请可广泛应用于人工智能技术领域内。

Description

文本数据的分析方法、模型训练方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其是一种文本数据的分析方法、模型训练方法、装置及计算机设备。

背景技术

近年来，随着人工智能技术的飞速发展，各种类型的机器学习模型在图像分类、人脸识别、自动驾驶等领域均取得了较为良好的应用效果。

其中，在文本分析的应用场景下，机器学习模型可以基于给定的文本数据，分析出其中蕴含的情感倾向。然而，在实际的应用中，可能存在有已经了解到文本数据的情感倾向，需要进一步判断、提取和该情感倾向相关内容的需求。面临该任务时，当下的机器学习模型输出的预测结果往往过于简略或者准确性不足。

综上，相关技术存在的问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种文本数据的分析方法，该方法能够从文本数据中提取出情感特征语句，且具有较高的提取效率和准确度。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

一方面，本申请实施例提供了一种文本数据的分析方法，包括：

获取待处理的文本数据和所述文本数据对应的第一情感标签；所述文本数据中包括多个单词；

将所述文本数据和所述第一情感标签输入至预设的文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率，所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率；

根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句。

另外，根据本申请上述实施例的一种文本数据的分析方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句，包括：

将所述第一输出概率最高值对应的单词确定为情感特征语句的目标起始单词，将所述第二输出概率最高值对应的单词确定为情感特征语句的目标终止单词；

从所述文本数据中提取所述目标起始单词和所述目标终止单词之间的文本内容，得到所述情感特征语句。

另一方面，本申请实施例提供了一种文本分析模型的训练方法，包括：

获取多个文本样本和所述文本样本对应的第二情感标签、情感特征语句标签；所述文本样本中包括多个单词；

将所述文本样本和所述第二情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本样本中的情感特征语句，得到第三输出概率和第四输出概率；其中，所述第三输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的预测概率，所述第四输出概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的预测概率；

根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签，确定训练的损失值；

根据所述损失值对所述文本分析模型进行训练，得到训练好的文本分析模型。

另外，根据本申请上述实施例的一种文本分析模型的训练方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述将所述文本样本和所述第二情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，包括：

对所述文本分析模型的神经网络单元进行多次的随机丢弃，得到多个不同的文本分析子模型；各个所述文本分析子模型具有共享的权重参数；

将所述文本样本和所述第二情感标签输入到各个所述文本分析子模型中，通过各个所述文本分析子模型提取所述文本数据中的情感特征语句；

所述确定训练的损失值，包括：

确定各个所述文本分析子模型对应的子损失值；

计算各个所述子损失值的均值，得到训练的损失值。

进一步地，在本申请的一个实施例中，所述情感特征语句标签通过以下步骤得到：

根据所述文本样本中的情感特征语句的起始单词的位置，确定第一标签概率；所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率，各个单词对应的所述第一标签概率和所述单词与所述起始单词之间的距离负相关；

根据所述文本样本中的情感特征语句的终止单词的位置，确定第二标签概率；所述第二标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的标签概率，各个单词对应的所述第二标签概率和所述单词与所述终止单词之间的距离负相关；

根据所述第一标签概率和所述第二标签概率构造所述情感特征语句标签。

分别将所述文本样本中的各个单词作为情感特征语句的候选起始单词，将所述文本样本的终止单词作为情感特征语句的候选终止单词，构造得到所述文本样本中的各个单词对应的第一候选情感特征语句；

根据各个所述第一候选情感特征语句和所述情感特征语句的单词交并比，确定各个所述第一候选情感特征语句对应的单词的第一标签概率；所述第一标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的起始单词的标签概率；

将所述文本样本的起始单词作为情感特征语句的候选起始单词，分别将所述文本样本中的各个单词作为情感特征语句的候选终止单词，构造得到所述文本样本中的各个单词对应的第二候选情感特征语句；

根据各个所述第二候选情感特征语句和所述情感特征语句的单词交并比，确定各个所述第二候选情感特征语句对应的单词的第二标签概率；所述第二标签概率用于表征所述文本样本中的各个单词为所述情感特征语句的终止单词的标签概率；

进一步地，在本申请的一个实施例中，所述根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签，确定训练的损失值，包括：

确定所述第三输出概率和所述第一标签概率之间的第一散度值；

确定所述第四输出概率和所述第二标签概率之间的第二散度值；

根据所述第一散度值和所述第二散度值的和，确定训练的损失值。

另一方面，本申请实施例提供一种文本数据的分析装置，包括：

获取模块，用于获取待处理的文本数据和所述文本数据对应的第一情感标签；所述文本数据中包括多个单词；

预测模块，用于将所述文本数据和所述第一情感标签输入至预设的文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率，所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率；

处理模块，用于根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句。

另一方面，本申请实施例提供了一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的文本数据的分析方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，上述处理器可执行的程序在由处理器执行时用于实现上述的文本数据的分析方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例所公开的一种文本数据的分析方法，该方法获取待处理的文本数据和所述文本数据对应的第一情感标签；所述文本数据中包括多个单词；将所述文本数据和所述第一情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，所述第一输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的起始单词的预测概率，所述第二输出概率用于表征所述文本数据中的各个单词为所述情感特征语句的终止单词的预测概率；根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句。该方法能够有效根据文本数据的情感标签，从文本数据中提取出和该情感标签对应的情感特征语句，用于情感分析技术领域，可以有利于辅助理解文本内容，更深入细节地判断文本内容的倾向性；而且，基于输出每个单词为情感特征语句的起始单词的概率以及终止单词的概率，从文本数据中确定情感特征语句，能够简化输出数据的复杂度，提高数据处理的效率，且节省计算资源的消耗。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例中提供的一种文本数据的分析方法的实施环境示意图；

图2为本申请实施例中提供的一种文本数据的分析方法的流程示意图；

图3为本申请实施例中提供的一种文本分析模型的训练方法的流程示意图；

图4为相关技术中的随机丢弃算法的示意图；

图5为本申请实施例中提供的一种文本数据的分析装置的结构示意图；

图6为本申请实施例中提供的一种计算机设备的结构示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)自然语言处理(Nature Language processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言，所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

4)区块链(Blockchain)，是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

其中，在文本分析的应用场景下，机器学习模型可以基于给定的文本数据，分析出其中蕴含的情感倾向。然而，在实际的应用中，可能存在有已经了解到文本数据的情感倾向，需要进一步判断、提取和该情感倾向相关内容的需求。例如，在餐饮娱乐点评的应用软件中，用户往往会打出好评或者差评后上传与之对应的评论内容，在该场景下，用户打出的好评或者差评就属于情感倾向，存在需要对用户的评论内容进行分析，提取出和情感倾向对应的文本内容(本申请中记为情感特征语句)，以确定为何用户给出好评(或者差评)的因素，从而帮助其他用户更好地甄别商家以及促进商家做出对应的服务改善升级。但当下的相关技术中，机器学习模型一般无法执行上述的任务类型，或者仅能大概给出模糊的预测结果，且往往过于简略或者准确性不足。

为了解决相关技术中存在需要根据情感倾向提取对应的情感特征语句的需求，而现有的机器学习模型一般无法执行上述的任务类型，或者仅能大概给出模糊的预测结果，且往往过于简略或者准确性不足的问题，本申请实施例提供了一种文本数据的分析方法、模型训练方法、装置及计算机设备，其中，该分析方法能够有效根据文本数据的情感标签，从文本数据中提取出和该情感标签对应的情感特征语句，用于情感分析技术领域，可以有利于辅助理解文本内容，更深入细节地判断文本内容的倾向性；而且，基于输出每个单词为情感特征语句的起始单词的概率以及终止单词的概率，从文本数据中确定情感特征语句，能够简化输出数据的复杂度，提高数据处理的效率，且节省计算资源的消耗。

图1是本申请实施例提供的一种文本数据的分析方法的实施环境示意图。参照图1，该实施环境的软硬件主体主要包括操作终端101和服务器102，操作终端101与服务器102通信连接。其中，该文本数据的分析方法可以单独配置于操作终端101执行，也可以单独配置于服务器102执行，或者基于操作终端101与服务器102二者之间的交互来执行，具体可以根据实际应用情况进行适当的选择，本实施例对此并不作具体限定。此外，操作终端101与服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

具体地，本申请中的操作终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(Personal Digital Assistant，PDA)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。操作终端101与服务器102之间可以通过无线网络或有线网络建立通信连接，该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

图2是本申请实施例提供的一种文本数据的分析方法的流程图，该方法的执行主体可以是操作终端或者服务器中的至少一者，图2中以该文本数据的分析方法配置于操作终端执行为例进行说明。参照图2，该文本数据的分析方法包括但不限于步骤110至步骤130。

步骤110：获取待处理的文本数据和文本数据对应的第一情感标签；文本数据中包括多个单词。

本步骤中，在对文本数据进行处理时，首先获取该文本数据和它对应的情感标签，记为第一情感标签。此处，第一情感标签用于表征文本数据中的内容所蕴含的情感倾向，比如说第一情感标签可以为表示“高兴”、“悲伤”、“好评”、“差评”、“支持”、“反对”等的标签，具体地，第一情感标签的数据格式可以是任意的，比如说可以是数值、向量、矩阵或者张量等的任一种，且数据和具体标签的对应关系可以根据需要灵活设定，本申请对此不作限制。

本步骤中，对获取待处理的文本数据的来源渠道不作限定，例如在一些实施例中，待处理的文本数据可以是从相关的资源服务器中下载得到的，也可以是通过硬件端口传输得到的，或者是通过语音采集及识别设备从环境中获取然后识别得到的。

需要说明的是，在自然语言中，一个文本是由多个语句组成的，而每个语句中又包括有多个词。因此，文本数据可以被划分为多个单词，即文本数据中包括有多个单词，本申请中，对单词的格式和语言类型不作具体限制。

步骤120：将文本数据和第一情感标签输入至预设的文本分析模型，通过文本分析模型提取文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，第一输出概率用于表征文本数据中的各个单词为情感特征语句的起始单词的概率，第二输出概率用于表征文本数据中的各个单词为情感特征语句的终止单词的概率。

本步骤中，将文本数据和它对应的第一情感标签输入至文本分析模型时，可以对文本数据和第一情感标签进行预处理，具体的处理方式可以是数据拼接、数据融合中的任一种。

本步骤中，将文本数据和它对应的第一情感标签输入至文本分析模型，通过文本分析模型来提取文本数据中的情感特征语句。此处，情感特征语句即文本数据中能够反映或者体现和第一情感标签对应的情感的相关语句，情感特征语句中可以包括一个或者多个单词，具体的数量本申请不作限制。

需要说明的是，由于文本数据本身是非结构化的数据，而机器学习模型一般处理的数据为结构化数据。因此，本申请实施例中，在将文本数据输入到模型前可以对其进行编码转换，将非结构化的文本数据转换为模型易于处理的结构化数据。例如，可以对文本数据进行分词处理，得到组成该文本数据的词组。此处，可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把文本数据中的各个语句按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把文本数据中的各个语句分成一个个字，再将字组合成词，寻找最优的组合方式。对文本数据进行分词处理后，可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量，当然，在一些实施例中，词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到，生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。以词嵌入向量作为对词编码得到的结构化数据为例，在得到文本数据中的每个词对应的词嵌入向量后，可以对这些词嵌入向量进行累加，累加后的向量可以记为词组向量，对词组向量进行归一化处理，即可得到的文本数据对应的向量，比如说归一化处理时，可以设定对应的向量中元素和为1。当然，以上仅用于举例说明一种对文本数据进行结构化处理的方式，并不意味着对本申请的具体实施形成限制。

本步骤中，文本分析模型在提取文本数据中的情感特征语句时，可以将其转换为从文本数据中确定情感特征语句的起始单词以及终止单词的问题。如此，模型可以预测文本数据中每一个单词是情感特征语句的起始单词的概率以及每一个单词是情感特征语句的终止单词的概率。本申请实施例中，将文本分析模型输出的文本数据中的各个单词为情感特征语句的起始单词的预测概率记为第一输出概率，将文本分析模型输出的文本数据中的各个单词为情感特征语句的终止单词的预测概率记为第二输出概率。可以理解的是，当某个单词对应的第一输出概率越高时，说明文本分析模型预测其越可能是情感特征语句中的第一个单词，当某个单词对应的第二输出概率越高时，说明文本分析模型预测其越可能是情感特征语句中的最后一个单词。如此，可以将文本分析模型用作预测文本数据中的情感特征语句。

可以理解的是，对于本申请实施例中的文本分析模型来说，其预测的文本数据中真实的情感特征语句的起始单词对应的第一输出概率越高，或者预测的文本数据中真实的情感特征语句的终止单词对应的第二输出概率越高，说明文本分析模型的预测效果越好，得到的预测结果越准确。

步骤130：根据第一输出概率和第二输出概率，从文本数据中确定情感特征语句。

本步骤中，在得到文本分析模型输出的第一输出概率和第二输出概率以后，可以从文本数据中确定情感特征语句。本申请实施例中，对文本数据进行分析的目的，即从中提取得到和第一情感标签对应的情感特征语句。具体地，例如，可以先比较第一输出概率和第二输出概率的大小，将对应的第一输出概率最高的单词确定为情感特征语句的目标起始单词，将对应的第二输出概率最高的单词确定为情感特征语句的目标终止单词。在确定到情感特征语句的目标起始单词和目标终止单词以后，从文本数据中提取目标起始单词和目标终止单词之间的文本内容(包括目标起始单词和目标终止单词)，即可得到情感特征语句。

当然，在一些实施例中，还可能会存在有一个文本数据中包括多个情感特征语句，且这些情感特征语句不完全相邻的情况。故而，本申请实施例中，在根据第一输出概率和第二输出概率确定情感特征语句时，还可以预先设置相关的阈值概率，当第一输出概率(或者第二输出概率)超过概率阈值时，先将其确定为潜在起始单词(潜在终止单词)，然后根据各个潜在起始单词和潜在终止单词在文本数据中的位置，依次截取得到多个情感特征语句。

可以理解的是，本申请实施例中，提供一种文本数据的分析方法，该方法能够有效根据文本数据的情感标签，从文本数据中提取出和该情感标签对应的情感特征语句，用于情感分析技术领域，可以有利于辅助理解文本内容，更深入细节地判断文本内容的倾向性；而且，本申请实施例中，基于输出每个单词为情感特征语句的起始单词的概率以及终止单词的概率，从文本数据中确定情感特征语句，能够简化输出数据的复杂度，提高数据处理的效率，且节省计算资源的消耗。

本申请实施例中，还提供一种文本分析模型的训练方法，图2中的文本数据的分析方法可以采用该文本分析模型的训练方法得到的文本分析模型执行处理任务。本申请实施例中，该训练方法的实施环境和前述的文本数据的分析方法类似，在此不再赘述。图3是本申请实施例提供的一种文本分析模型的训练方法的流程图，该方法的执行主体可以是操作终端或者服务器中的至少一者，图3中以该文本数据的分析方法配置于操作终端执行为例进行说明。参照图3，该文本分析模型的训练方法包括但不限于步骤210至步骤240。

步骤210：获取多个文本样本和文本样本对应的第二情感标签、情感特征语句标签；文本样本中包括多个单词。

步骤220：将文本样本和第二情感标签输入至文本分析模型，通过文本分析模型提取文本样本中的情感特征语句，得到第三输出概率和第四输出概率；其中，第三输出概率用于表征文本样本中的各个单词为情感特征语句的起始单词的预测概率，第四输出概率用于表征文本样本中的各个单词为情感特征语句的终止单词的预测概率。

步骤230：根据第三输出概率、第四输出概率和情感特征语句标签，确定训练的损失值。

步骤240：根据损失值对文本分析模型进行训练，得到训练好的文本分析模型。

本申请实施例中，文本分析模型可以采用任一种机器学习算法搭建，在此不作限制。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

具体地，在一些实施例中，本申请的模型可以选用Transformer架构体系下的模型，如BERT、RoBERTa、GPT-2、T5等模型。而且，原有模型的基础上，为了能够充分利用Transformer各层提取的特征信息，本申请中还可以对模型的框架进行改造，例如可以将Transformer的各中间层(不含Embedding层)的输出分别作平均池化和最大池化操作，然后进行拼接输出给模型的线性层，从而提高模型的预测精度。

需要说明的是，在使用上述的机器学习模型前，需要对其进行基于监督学习的训练。本申请实施例中，可以通过获取多个文本样本组成的训练数据集对文本分析模型进行训练，这些文本样本携带有对应的情感标签，记为第二情感标签，还携带有情感特征语句标签。此处，文本样本的情感特征语句标签用于表征文本样本中的情感特征语句，例如在一些实施例中，该情感特征语句标签可以是表征情感特征语句在文本样本中的位置信息。

在得到训练数据集后，对于训练数据集中的文本样本，可以将和对应的第二情感标签其输入到初始化的文本分析模型中，得到文本分析模型输出的预测结果。类似地，此时文本分析模型将输出文本样本中的各个单词为情感特征语句的起始单词的预测概率，记为第三输出概率，以及输出文本样本中的各个单词为情感特征语句的终止单词的预测概率，记为第四输出概率。在得到文本分析模型输出的预测结果后，可以根据该结果和前述的情感特征语句标签评估模型预测的准确性，以对模型进行反向传播训练，更新其相关参数。

具体地，对于机器学习模型来说，它的预测结果的准确性可以通过损失函数(LossFunction)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。在实际应用中，可以从中任选一种损失函数来确定训练的损失值，也即第三输出概率、第四输出概率和情感特征语句标签之间的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代预设的轮次即可得到训练好的机器学习模型。通过以上的训练方式，即可得到训练好的文本分析模型。

本申请的一个实施例中，对文本分析模型的训练过程的步骤220以及步骤230进行进一步的说明。

其中，步骤220可以包括但不限于步骤221至步骤222：

步骤221：对文本分析模型的神经网络单元进行多次的随机丢弃，得到多个不同的文本分析子模型；各个文本分析子模型具有共享的权重参数。

步骤222：将文本样本和第二情感标签输入到各个文本分析子模型中，通过各个文本分析子模型提取文本数据中的情感特征语句。

本申请实施例中，为了提高模型训练的效率，可以基于随机丢弃算法(Dropout)对模型进行训练。Dropout是一种用于优化机器学习模型中可能出现的过拟合现象的技术，参照图4，图4示出了一种神经网络模型采用该技术训练时的示意图，在模型训练过程的其中某一轮迭代时，原始的神经网络中每个神经元的输出(或者神经元的权重、偏置)以一定的概率被丢弃，从而形成了较为稀疏的网络结构，这种训练方式对于正则化密集的神经网络十分有效，可以大大提高模型训练的效率。而本申请实施例中，对原始的Dropout进行了改进利用，在模型的训练过程中，并行地对文本分析模型的神经网络单元进行多次的随机丢弃。如此，可以得到多个不同结构的文本分析子模型，本申请实施例中，约束各个文本分析子模型具有共享的权重参数，也即不同结构的文本分析子模型在相同的神经网络单元的权重参数一致，并通过训练数据集对各个文本分析子模型进行训练。

上述的步骤230可以包括但不限于步骤231至步骤232：

步骤231：确定各个文本分析子模型对应的子损失值。

步骤232：计算各个子损失值的均值，得到训练的损失值。

本申请实施例中，通过训练数据集对各个文本分析子模型训练以后，可以得到各个文本分析子模型对应的子损失值，计算各个子损失值的均值，可以将该均值作为模型训练的总损失值对模型参数进行更新。本申请实施例中，通过上述的训练方式，可以大大加快训练的收敛速度，并且能够有效提高模型的泛化能力，有利于提高得到的预测结果的准确性。

在一些实施例中，本申请的情感特征语句标签通过以下步骤得到：

根据文本样本中的情感特征语句的起始单词的位置，确定第一标签概率；第一标签概率用于表征文本样本中的各个单词为情感特征语句的起始单词的标签概率，各个单词对应的第一标签概率和单词与起始单词之间的距离负相关；

根据文本样本中的情感特征语句的终止单词的位置，确定第二标签概率；第二标签概率用于表征文本样本中的各个单词为情感特征语句的终止单词的标签概率，各个单词对应的第二标签概率和单词与终止单词之间的距离负相关；

根据第一标签概率和第二标签概率构造情感特征语句标签。

本申请实施例中，情感特征语句标签可以参照模型输出的预测结果的形式，设置为包括两个值，一个记为第一标签概率，用于表征文本样本中的各个单词为情感特征语句的起始单词的标签概率；另一个记为第二标签概率，用于表征文本样本中的各个单词为情感特征语句的终止单词的标签概率。

可以理解的是，模型预测的起始单词距离真实的起始单词的位置越近，以及预测的终止单词距离真实的终止单词的位置越近，则最后提取得到的情感特征语句就越准确。因此，本申请实施例中，在构造情感特征语句标签时，可以按照各个单词距离真实的起始单词的距离来确定其对应的第一标签概率，也即单词距离真实的起始单词的距离越近，其对应的第一标签概率越大；反之，单词距离真实的起始单词的距离越远，其对应的第一标签概率越小。类似地，可以按照各个单词距离真实的终止单词的距离来确定其对应的第二标签概率，也即单词距离真实的终止单词的距离越近，其对应的第二标签概率越大；反之，单词距离真实的终止单词的距离越远，其对应的第二标签概率越小。

在一些实施例中，本申请的情感特征语句标签也可以通过以下步骤得到：

分别将文本样本中的各个单词作为情感特征语句的候选起始单词，将文本样本的终止单词作为情感特征语句的候选终止单词，构造得到文本样本中的各个单词对应的第一候选情感特征语句；

根据各个第一候选情感特征语句和情感特征语句的单词交并比，确定各个第一候选情感特征语句对应的单词的第一标签概率；第一标签概率用于表征文本样本中的各个单词为情感特征语句的起始单词的标签概率；

将文本样本的起始单词作为情感特征语句的候选起始单词，分别将文本样本中的各个单词作为情感特征语句的候选终止单词，构造得到文本样本中的各个单词对应的第二候选情感特征语句；

根据各个第二候选情感特征语句和情感特征语句的单词交并比，确定各个第二候选情感特征语句对应的单词的第二标签概率；第二标签概率用于表征文本样本中的各个单词为情感特征语句的终止单词的标签概率；

根据第一标签概率和第二标签概率构造情感特征语句标签。

本申请实施例中，在构造情感特征语句标签时，还可以分别将文本样本中的每个单词作为情感特征语句的候选起始单词，将文本样本的终止单词作为情感特征语句的候选终止单词，构造得到各个单词对应的第一候选情感特征语句。根据第一候选情感特征语句和真实的情感特征语句的重合度，可以确定该第一候选情感特征语句对应的单词的第一标签概率。类似地，可以以同样的方式确定各个单词的第二标签概率，即分别将文本样本中的每个单词作为情感特征语句的候选终止单词，将文本样本的起始单词作为情感特征语句的候选起始单词，构造得到各个单词对应的第二候选情感特征语句。根据第二候选情感特征语句和真实的情感特征语句的重合度，可以确定该第二候选情感特征语句对应的单词的第二标签概率。

下面，结合一个具体的实施例来说明本申请中构造情感特征语句标签的实施过程。

假设当前存在一个单词总个数为29的文本样本，从0开始依次为各个单词进行标号，文本样本的起始单词对应的标号为0，文本样本的终止单词对应的标号为28。其中，该文本样本中的第23个单词到最后一个单词之间的语句是其情感特征语句，则相应地，情感特征语句中的单词对应的标号包括22至28。其中，情感特征语句的起始单词的标号为22，情感特征语句的终止单词的标号为28。在构造情感特征语句标签时，以第一标签概率为例，先初始化每个位置为的单词是起始单词的概率为0，得到一个维度为29，各个元素为0的向量。然后，从文本样本的起始单词开始，依次将各个单词作为情感特征语句的候选起始单词，将文本样本的终止单词作为情感特征语句的候选终止单词，构造得到文本样本中的各个单词对应的第一候选情感特征语句。比如说，对于文本样本的起始单词来说，其对应的第一候选情感特征语句就包括标号为0至28的全部单词的文本内容。类似地，对于文本样本中标号为8的单词来说，其对应的第一候选情感特征语句包括标号为8至28的全部单词的文本内容。

当构造得到各个单词对应的第一候选情感特征语句后，可以计算第一候选情感特征语句和真实的情感特征语句的单词交并比。此处，计算单词交并比时，可以通过第一候选情感特征语句中的单词集合和真实的情感特征语句的单词集合的交集中单词的个数，除以两个单词集合的并集中单词的个数得到的比值作为单词交并比。比如说，对于文本样本的起始单词来说，其对应的第一候选情感特征语句包括标号为0至28的全部单词，共有29个单词，而真实的情感特征语句中包括标号为22至28的单词，两者单词的交集中有7个单词，并集中有29个单词，则此时单词交并比为7/29＝0.241。

本申请实施例中，可以将单词交并比直接作为第一候选情感特征语句对应的单词的第一标签概率，当然，在一些实施例中，也可以对单词交并比进行一定的函数处理后，将得到的结果作为第一标签概率，原理上只需使得单词交并比和第一标签概率正相关即可，例如可以将单词交并比加上自身的平方项作为第一标签概率，则前述的单词交并比为0.241的单词对应的第一标签概率可以计算为0.2996。

本申请实施例中，直接将单词交并比确定为标签概率，容易导致数值的变化剧烈，会引入较大误差，而引入平方项进行平滑，则可以有效避免这种情况。能够提高模型训练的效果，有利于提高预测的准确性。

在一些实施例中，在确定到第一候选情感特征语句和情感特征语句的单词交并比后，对应的各个单词的第一标签概率还可以通过以下公式确定：

式中，i表示文本样本中单词的标号，k表示文本样本中单词的总个数，y_i表示第i个单词对应的第一标签概率，α为数值参数，例如可以取0.6，

表示真实标签概率(即一个29维的向量，该向量起始单词对应位置的元素为1，其他元素为0)，S_i表示第i个单词对应的参考标签概率。

上式中，参考标签概率通过以下公式确定：

式中，S_i表示第i个单词对应的参考标签概率，i表示文本样本中单词的标号，k表示文本样本中单词的总个数；j_i表示第i个单词对应的单词交并比(或者第i个单词对应的单词交并比加上自身的平方项)。

需要说明的是，本申请上述实施例中，仅用于对标签概率的设置原理进行介绍和说明，其中选定或者计算得到的概率数值并不对实际实施形成限制。本领域人员在了解到本申请实施例中的原理后，具体的标签概率的数值可以根据需要灵活设定，在此不再赘述。

在一些实施例中，根据第三输出概率、第四输出概率和情感特征语句标签，确定训练的损失值，包括：

确定第三输出概率和第一标签概率之间的第一散度值；

确定第四输出概率和第二标签概率之间的第二散度值；

根据第一散度值和第二散度值的和，确定训练的损失值。

本申请实施例中，在计算损失值时，由于上述构造的标签属于概率的分布形式，常规的损失函数并不能较好地衡量通过单词交并比计算得到的预测概率和标签的差异情况。因此，本申请实施例中，提出通过散度来计算损失值，用于优化模型参数。具体地，可以计算模型训练时预测得到的第三输出概率和第一标签概率之间的散度值，记为第一散度值，以及计算模型训练时预测得到的第四输出概率和第二标签概率之间的散度值，记为第二散度值。然后，对第一散度值和第二散度值求和，从而得到最终的损失值，用于反向更新模型的参数。此处，可以通过KL散度公式计算对应的散度值，具体的计算过程不再赘述。

参照图5，本申请实施例还提供了一种文本数据的分析装置，该装置包括：

获取模块510，用于获取待处理的文本数据和文本数据对应的第一情感标签；文本数据中包括多个单词；

预测模块520，用于将文本数据和第一情感标签输入至预设的文本分析模型，通过文本分析模型提取文本数据中的情感特征语句，得到第一输出概率和第二输出概率；其中，第一输出概率用于表征文本数据中的各个单词为情感特征语句的起始单词的预测概率，第二输出概率用于表征文本数据中的各个单词为情感特征语句的终止单词的预测概率；

处理模块530，用于根据第一输出概率和第二输出概率，从文本数据中确定情感特征语句。

可以理解的是，图2所示的文本数据的分析方法实施例中的内容均适用于本文本数据的分析装置实施例中，本文本数据的分析装置实施例所具体实现的功能与图2所示的文本数据的分析方法实施例相同，并且达到的有益效果与图2所示的文本数据的分析方法实施例所达到的有益效果也相同。

参照图6，本申请实施例还公开了一种计算机设备，包括：

至少一个处理器610；

至少一个存储器620，用于存储至少一个程序；

当至少一个程序被至少一个处理器610执行，使得至少一个处理器610实现如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例。

可以理解的是，如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例中的内容均适用于本计算机设备实施例中，本计算机设备实施例所具体实现的功能与如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例相同，并且达到的有益效果与如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例所达到的有益效果也相同。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例。

可以理解的是，如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例相同，并且达到的有益效果与如图2所示的文本数据的分析方法实施例或者图3所示的文本分析模型训练方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内

在本说明书的描述中，参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

Claims

1.一种文本数据的分析方法，其特征在于，包括：

2.根据权利要求1所述的文本数据的分析方法，其特征在于，所述根据所述第一输出概率和所述第二输出概率，从所述文本数据中确定所述情感特征语句，包括：

3.一种文本分析模型的训练方法，其特征在于，包括：

4.根据权利要求3所述的文本分析模型的训练方法，其特征在于：

所述将所述文本样本和所述第二情感标签输入至文本分析模型，通过所述文本分析模型提取所述文本数据中的情感特征语句，包括：

将所述文本样本和所述第二情感标签输入到各个所述文本分析子模型中，提取所述文本数据中的情感特征语句；

所述确定训练的损失值，包括：

确定各个所述文本分析子模型对应的子损失值；

计算各个所述子损失值的均值，得到训练的损失值。

5.根据权利要求3所述的文本分析模型的训练方法，其特征在于，所述情感特征语句标签通过以下步骤得到：

6.根据权利要求3所述的文本分析模型的训练方法，其特征在于，所述情感特征语句标签通过以下步骤得到：

7.根据权利要求5或者6所述的文本分析模型的训练方法，其特征在于，所述根据所述第三输出概率、所述第四输出概率和所述情感特征语句标签，确定训练的损失值，包括：

8.一种文本数据的分析装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的文本数据的分析方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的文本数据的分析方法。