CN113139060A

CN113139060A - 文本分析模型训练及文本分析方法、介质、装置及设备

Info

Publication number: CN113139060A
Application number: CN202110524417.8A
Authority: CN
Inventors: 王强; 梁钧
Original assignee: Hangzhou Netease Zaigu Technology Co Ltd
Current assignee: Hangzhou Netease Zaigu Technology Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-07-20
Anticipated expiration: 2041-05-13
Also published as: CN113139060B

Abstract

本公开的实施方式提供了文本分析模型训练及文本分析方法、介质、装置及设备。包括：将包含问题信息的第一原始语料输入待训练文本分析模型的编码器；采用待训练文本分析模型的编码器，获得第一原始语料中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵；采用待训练文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征；采用待训练文本分析模型的解码器，对整体编码表征进行解码，确定第一分类信息和第二分类信息；根据第一分类信息、第二分类信息和标注分类信息，对待训练文本分析模型进行优化，得到优化后的文本分析模型。本公开能够提高文本分析结果对商品供应商或商品销售平台的参考价值。

Description

文本分析模型训练及文本分析方法、介质、装置及设备

技术领域

本公开的实施方式涉及文本分析技术领域，更具体地，本公开的实施方式涉及文本分析模型训练及文本分析方法、介质、装置及设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着网络技术的发展，用户不仅可以通过网络购买商品，也能够在购买商品后，根据使用效果、商品质量、满意程度等因素在网络上对购买的商品进行评价。方便其他用户从侧面了解商品的同时，还能够向商品供应方提供商品改进的方向和参考意见。

对商品进行舆情分析，可以包括对商品的评价进行分析，提取其中有效内容，将有效内容提供给商品平台或者商品供应商，使其改进产品、维护产品形象。

一般情况下，对商品进行舆情分析时，只考虑到了情感方面的肯定性或否定性、风险预测、好评或差评，从而只能得到模糊的分析结果，不能够充分满足商品研发和品控的需求。

发明内容

在本上下文中，本公开的实施方式期望提供一种文本分析模型训练方法和装置，以及一种文本分析方法和装置。

在本公开实施方式的第一方面中，提供了一种文本分析模型训练方法，包括：

将包含问题信息的第一原始语料输入待训练文本分析模型的编码器；

采用待训练文本分析模型的编码器，获得第一原始语料中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵；

采用待训练文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征；

采用待训练文本分析模型的解码器，对整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下所包含的多个子分类信息中的一个；

根据第一分类信息、第二分类信息和标注分类信息，对待训练文本分析模型进行优化，得到优化后的文本分析模型。

在本公开的一种实施方式中，对整体编码表征进行解码，确定第一分类信息和第二分类信息，包括：

对整体编码表征进行解码，获得各个关键词的权重；

根据关键词的权重确定第一分类信息或第二分类信息。

在本公开的一种实施方式中，文本分析模型训练方法还包括：

对待训练的编码器进行模型训练前的预训练，得到待训练文本分析模型的编码器。

在本公开的一种实施方式中，对待训练的编码器进行模型训练前的预训练，包括：

对第二原始语料进行词语删除操作，得到训练语料；

将训练语料输入待训练的编码器，使得待训练的编码器对训练语料进行删除词语填充，得到填充语料；

根据填充语料和第二原始语料，对待训练的编码器进行预训练，得到待训练文本分析模型的编码器。

在本公开的一种实施方式中，对第二原始语料进行词语删除操作，得到训练语料，包括：

按照设定比例，对第二原始语料进行随机的词语删除操作，得到训练语料。

对整体编码表征进行解码，获得解码结果；

根据解码结果，输出问题信息属于各个第一级分类信息的第一概率和属于各个第二级分类信息的第二概率；

根据第一概率和第二概率，确定第一分类信息和第二分类信息。

在本公开的一种实施方式中，采用文本分析模型的信息抽取层根据语义向量和词向量矩阵，确定问题信息的整体编码表征，包括：

采用信息抽取层的注意力机制子层，根据语义向量和词向量矩阵，获得关键词的权重；

采用注意力机制子层，根据关键词的权重，获得关键词的平均表征；

采用信息抽取层的混合子层，将关键词的平均表征和语义向量进行拼接，获得整体编码表征。

在本公开实施方式的第二方面中，提供一种文本分析方法，包括：

将待分析文本输入文本分析模型；文本分析模型为本公开任意一项实施方式提供的优化后的文本分析模型；

采用文本分析模型分析待分析文本，得到待分析文本中涉及的问题信息；

采用文本分析模型，获得待分析文本的问题信息的第一分类信息和第二分类信息，其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

在本公开实施方式的第三方面中，提供一种文本分析模型训练装置，包括：

第一原始语料输入模块，用于将包含问题信息的第一原始语料输入待训练文本分析模型的编码器；

编码模块，用于采用待训练文本分析模型的编码器，获得第一原始语料中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵；

信息抽取模块，用于采用待训练文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征；

解码模块，用于采用待训练文本分析模型的解码器，对整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下所包含的多个子分类信息中的一个；

优化模块，用于根据第一分类信息、第二分类信息和标注分类信息，对待训练文本分析模型进行优化，得到优化后的文本分析模型。

在本公开的一种实施方式中，解码模块包括：

权重单元，用于对整体编码表征进行解码，获得各个关键词的权重；

权重处理单元，用于根据关键词的权重确定第一分类信息或第二分类信息。

在本公开的一种实施方式中，文本分析模型训练装置还包括：

预训练模块，用于对待训练的编码器进行模型训练前的预训练，得到待训练文本分析模型的编码器。

在本公开的一种实施方式中，预训练模块包括：

删除单元，用于对第二原始语料进行词语删除操作，得到训练语料；

填充语料单元，用于将训练语料输入待训练的编码器，使得待训练的编码器对训练语料进行删除词语填充，得到填充语料；

训练执行单元，用于根据填充语料和第二原始语料，对待训练的编码器进行预训练，得到待训练文本分析模型的编码器。

在本公开的一种实施方式中，删除单元还用于：

在本公开的一种实施方式中，解码模块还包括：

整体表征单元，用于对整体编码表征进行解码，获得解码结果；

概率单元，用于根据解码结果，输出问题信息属于各个第一级分类信息的第一概率和属于各个第二级分类信息的第二概率；

概率信息处理单元，用于根据第一概率和第二概率，确定第一分类信息和第二分类信息。

在本公开的一种实施方式中，信息抽取模块包括：

关键词权重单元，用于采用信息抽取层的注意力机制子层，根据语义向量和词向量矩阵，获得关键词的权重；

平均表征单元，用于采用注意力机制子层，根据关键词的权重，获得关键词的平均表征；

混合单元，用于采用信息抽取层的混合子层，将关键词的平均表征和语义向量进行拼接，获得整体编码表征。

在本公开实施方式的第四方面中，提供了一种文本分析装置，包括：

模型输入模块，用于将待分析文本输入文本分析模型；文本分析模型为本公开任意一项实施例所提供的优化后的文本分析模型；

模型执行模块，用于采用文本分析模型分析待分析文本，得到待分析文本中涉及的问题信息；

分类信息获取模块，用于采用文本分析模型，获得待分析文本的问题信息的第一分类信息和第二分类信息，其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

在本公开实施方式的第五方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行实现上述文本分析模型训练方法或文本分析方法的步骤。

在本公开实施方式的第六方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现文本分析模型训练方法或文本分析方法的步骤。

根据本公开实施方式的文本分析模型训练方法和装置，可以用于对第一原始语料进行分析，第一原始语料可以是直接通过网络等途径获取的原始语料，也可以是通过问卷、客服投诉等途径获得的原始语料。原始语料的内容可以包括关于用户使用商品所反馈的信息，比如商品存在的质量问题、商品运输过程中的物流问题等信息。通过文本分析模型，能够对第一原始语料进行问题信息的提取，对涉及的问题信息进行的分类，并将分类信息输出，使得商品供应商、商品销售平台等能够快速、高效率获取商品面市后出现的问题，有助于商品供应商、商品销售平台根据了解到的问题对产品进行品控管理、售后服务和风险预测等。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开一实施方式的文本分析模型训练方法实现流程图；

图2示意性地示出了根据本公开另一实施方式的文本分析模型训练方法所包括的步骤示意图；

图3示意性地示出了根据本公开又一实施方式的文本分析模型训练方法所包括的步骤示意图；

图4示意性地示出了根据本公开又一实施方式的文本分析模型训练方法所包括的步骤示意图；

图5示意性地示出了根据本公开又一实施方式的文本分析模型训练方法所包括的步骤示意图；

图6示意性地示出了根据本公开又一实施方式的文本分析模型训练方法所包括的步骤示意图；

图7示意性地示出了根据本公开一实施方式的文本分析方法所包括的步骤示意图；

图8示意性地示出了根据本公开一实施方式的商品问题分类体系示意图；

图9示意性地示出了根据本公开一实施方式的文本分析模型结构示意图；

图10示意性地示出了根据本公开一实施方式的文本分析模型的编码器和信息抽取层的信息处理示意图；

图11示意性地示出了根据本公开一实施方式的文本分析模型的解码层信息处理示意图；

图12示意性地示出了根据本公开一实施方式的用于文本分析模型的训练方法或的用于文本分析方法的介质示意图；

图13示意性地示出了根据本公开一实施方式的文本分析模型训练装置结构示意图；

图14示意性地示出了根据本公开一实施方式的文本分析装置结构示意图；

图15示意性地示出了根据本公开一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种文本分析模型训练方法、介质、装置和计算设备，并提出一种文本分析方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

本发明人发现，商品舆情(评论等)的分析是商品研发中很重要的一环。现有的商品舆情分析技术仅通过分类器分析情感倾向来获得分析结果，所获得的分析结果对于商品供应商或商品销售平台而言使用价值不高，且现有的用于商品舆情分析的分类器还具有不易扩展的缺点。

有鉴于此，本公开提供了一种文本分析法和装置，采用预先训练的文本分析模型对待分析文本中的关键词和整体语义进行分析，得到了待分析文本中的问题的分类信息。由于采用了预先训练的文本分析模型对待分析文本中问题的分类信息进行了提取，使得本公开实现了端到端的分类方法，从而在待分析文本中的问题信息的类别增多时，无需增加分类器，大大提升了文本分析模型的扩展性。且本公开还能够全面分析并提取待分析文本中的问题信息的分类信息，为商品供应商或商品销售平台提供有价值的分析结果。另外，本公开还提供一种文本分析模型训练方法和装置，用于训练上述文本分析模型。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本公开示例性实施方式的文本分析模型的训练方法。

如图1所示，本公开实施例的文本分析模型训练方法，包括：

步骤S11：将包含问题信息的第一原始语料输入待训练文本分析模型的编码器；

步骤S12：采用待训练文本分析模型的编码器，获得第一原始语料中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵；

步骤S13：采用待训练文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征；

步骤S14：采用待训练文本分析模型的解码器，对整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下所包含的多个子分类信息中的一个；

步骤S15：根据第一分类信息、第二分类信息和标注分类信息，对待训练文本分析模型进行优化，得到优化后的文本分析模型。

在一种可能的实施方式中，问题信息可以是原始语料中反映商品或服务质量信息的内容或语句。比如，用户对商品评论中关于商品质量的一句或数句自然语句。再如，用户退换商品时填选的退换理由。

在一种可能的实施方式中，包含问题信息的第一原始语料可以是用户对商品或服务的具体评价语料，可以包含文字、图像等信息。包含问题信息的第一原始语料还可以是包含退换货理由的退换货记录；或者还可以是用户通过设定的投诉等渠道反馈提交的信息。

在一种可能的实施方式中，包含问题信息的第一原始语料可以在经过简单的筛选或处理后，输入待训练文本分析模型的编码器。也可以直接在原始未处理的状态下输入待训练文本分析模型的编码器。

待训练文本分析模型的编码器可以对输入的语料进行编码操作。

在一种可能的实施方式中，第一原始语料中的问题信息的语义向量，可以是第一原始语料中对应问题信息的语句所转换的向量，可以反应问题信息的语义内容。

在一种可能的实施方式中，词向量矩阵中的元素可以全部或部分对应于关键词。第一原始语料中的问题信息所包含的关键词，可以是与问题信息相关的一个或多个关键词。词向量矩阵中的元素可以是第一原始语料中的问题信息所包含的关键词转换成的向量，可以由编码器对关键词进行处理转化得到。

待训练文本分析模型的信息抽取层的输入内容可以是语义向量和词向量矩阵。

在一种可能的实施方式中，第一分类信息和第二分类信息可以拼接成一个结果进行输出。

比如，输出结果可以是第一分类信息A+第二分类信息B+第一分类信息C+第二分类信息D。其中，第二分类信息B是第一分类信息的子分类信息，第二分类信息D是第一分类信息C的子分类信息。

再如，输出结果可以是第一分类信息A+第一分类信息C+第二分类信息B+第二分类信息D。其中，第二分类信息B是第一分类信息的子分类信息，第二分类信息D是第一分类信息C的子分类信息。

在一种可能的实施方式中，第一分类信息可以是商品问题的初级分类信息，比如，质量问题、物流问题、外观问题、使用方便问题、安全问题等。第一分类信息可以按照商品问题的大致方面进行分类得到的分类信息。

第二分类信息可以是针对商品特征对第一分类信息进一步进行分类得到的次级分类信息。

比如，针对针织衫这种商品而言，第一分类信息“质量问题”下包含的子分类信息可以是掉毛、脱线、掉色、起球等。

在一种可能的实施方式中，第一分类信息可以是和商品类别相关的第一分类信息；第二分类信息可以是和具体商品类别相关的第二分类信息。

比如，针对成人服装，第一分类信息可包括质量问题，但是一般可不包括安全问题。针对童装，第一分类信息可包括质量问题，也可包括安全问题。

在一种可能的实施方式中，对待训练文本分析模型进行优化，可以是对整个待训练文本分析模型所有的数据处理层全部进行优化，也可以是对待训练文本分析模型进行部分优化。

本公开实施例训练得到的文本分析模型可以用于对第一原始语料进行分析，第一原始语料可以是直接通过网络、问卷、客服投诉等途径获取的原始语料，其内容可包括用户使用商品的反馈信息。通过文本分析模型，能够对第一原始语料进行问题信息的提取，并对问题进行的分类进行输出，使得商品供应商、商品销售平台等需要了解用户使用商品的问题的对象快速、高效率获取商品使用过程中的问题，从而有助于对产品进行品控、售后和风险预测等。

在一种实施方式中，如图2所示，对整体编码表征进行解码，确定第一分类信息和第二分类信息的步骤，进一步包括：

步骤S21：对整体编码表征进行解码，获得各个关键词的权重；

步骤S22：根据关键词的权重确定第一分类信息或第二分类信息。

通过权重确定第一分类信息或第二分类信息，可实现从输入端到输出端的层次分类，获取商品的多级问题信息的分类，使用Attention(注意力)机制获得用户关注的商品问题关键词，通过关键词的权重结合问题信息的分类和关键词给商品研发、商品提供方、商品交易平台等相关方提供用于反馈商品问题的关键信息，便于各方对相应产品的品质进行把控和改进。

在一种实施方式中，如图3所示，文本分析模型训练方法还包括：

步骤S31：对待训练的编码器进行模型训练前的预训练，得到待训练文本分析模型的编码器。

本实施例中，通过对编码器进行单独训练，能够提高编码器在原始语料中获取与关键词相关的信息的能力。

在一种实施方式中，如图4所示，对待训练的编码器进行模型训练前的预训练，进一步包括：

步骤S41：对第二原始语料进行词语删除操作，得到训练语料；

步骤S42：将训练语料输入待训练的编码器，使得待训练的编码器对训练语料进行删除词语填充，得到填充语料；

步骤S43：根据填充语料和第二原始语料，对待训练的编码器进行预训练，得到待训练文本分析模型的编码器。

本实施例中，对第二原始语料进行词语删除操作，具体可以是对第二原始语料进行随机的词语删除操作。在执行词语删除操作时，为了保证第二原始语料不丢失原有的基本信息，可对删除的内容设定一定的限制，比如，限制删除的词语不超过第二原始语料的内容的20％等。

在一种可能的实现方式中，根据填充语料和第二原始语料，对待训练的编码器进行预训练，可以是根据填充语料和第二原始语料，对比填充语料的填充内容是否正确，根据对比结果对未训练的编码器进行训练。

在一种实施方式中，对第二原始语料进行词语删除操作，得到训练语料，包括：

在其它实施方式中，可以对第二原始语料进行给定条件的词语删除，比如删除第二原始语料中具有实际含义的词语。

在一种实施方式中，如图5所示，对整体编码表征进行解码，确定第一分类信息和第二分类信息，进一步包括：

步骤S51：对整体编码表征进行解码，获得解码结果；

步骤S52：根据解码结果，输出问题信息属于各个第一级分类信息的第一概率和属于各个第二级分类信息的第二概率；

步骤S53：根据第一概率和第二概率，确定第一级分类信息和第二级分类信息。

在具体实现方式中，可通过舆情文本获得原始语料。舆情文本中涉及的商品问题领域众多，例如物流问题、包装问题、商品问题等；可能存在300多种分类信息，各种分类信息可能出现的次数差别巨大，出现次数较少的问题信息可能难以区分。本实施例中，建立了一整套商品问题分类体系，分类体系可以如图8所示，在一种具体的实现方式中，分类体系可以包含12个第一级分类信息，每个第一级分类信息对应多个第二级分类信息。以质量问题这一第一级分类信息为例，包含59个第二级分类信息。通过问题分类体系，可以直接发现商品当前存在的问题，从而指导商品进行迭代开发和售后服务等。

本公开实施例中，采用了输入端到输出端的方式确定分类信息，根据第一概率和第二概率，确定第一分类信息和第二分类信息，并将第一分类信息、第二分类信息统一编码为一个输出结果。在分类数量和层次增加时，无需增加分类器数量，从而可以应对分类问题扩展的问题。

在一种实施方式中，如图6所示，采用文本分析模型的信息抽取层根据语义向量和词向量矩阵，确定问题信息的整体编码表征，进一步包括：

步骤S61：采用信息抽取层的注意力机制子层，根据语义向量和词向量矩阵，获得关键词的权重；

步骤S62：采用注意力机制子层，根据关键词的权重，获得关键词的平均表征；

步骤S63：采用信息抽取层的混合子层，将关键词的平均表征和语义向量进行拼接，获得整体编码表征。

通过信息抽取层，将根据关键词权重获得的平均表征和语义向量进行拼接，获得整体编码表征，从而，整体编码表征中既包含了关键词信息，也包含了语义信息，且关键词具有相应的权重，由此，使得最终根据整体编码表征输出的分类信息融合了关键词信息和语义信息，具有更高的准确性。

本公开实施例还提供一种文本分析方法，如图7所示，包括：

步骤S71：将待分析文本输入文本分析模型；文本分析模型为本公开任意一项实施例所提供的优化后的文本分析模型；

步骤S72：采用文本分析模型分析待分析文本，得到待分析文本中涉及的问题信息；

步骤S73：采用文本分析模型，获得待分析文本的问题信息的第一分类信息和第二分类信息，其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

在一种可能的实施方式中，待分析文本中涉及的问题信息可以是待分析文本中可能包含的全部问题信息。

在一种可能的实施方式中，待分析文本中涉及的问题信息可以是根据待分析文本所得到的商品全部第一分类信息和第二分类信息对应的概率。

在一种可能的实施方式中，采用文本分析模型分析待分析文本，可以包括：采用文本分析模型的编码器，获得待分析文本中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵。还可以包括：采用文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征，以及进一步根据整体编码表征获得问题信息。

在一种可能的实施方式中，采用文本分析模型，获得待分析文本的问题信息的第一分类信息和第二分类信息，可以是采用文本分析模型，获得第一分类信息和第二分类信息对应的概率；或者根据第一分类信息和第二分类信息对应的概率，筛选概率较高的第一分类信息和第二分类信息。

本实施例中，采用本公开任意实施例所提供的训练后的文本分析模型分析待分析文本，能够获得待分析文本中的问题信息所涉及的分类，有助于商品供应商或商品销售平台等快速直观地了解到待分析文本中所反映的商品问题，从而快速高效地针对商品问题作出改进设计或弥补措施。

在本公开一种示例中，文本分析模型的结构如图9所示。将第一原始语料输入包含序列至序列模型的文本分析模型，经过文本分析模型的编码器91、信息抽取层92和解码器93，输入编码器91的信息为待分析文本，例如文本“用了一次就掉毛”。经过信息抽取层92，输出问题信息的整体编码表征到解码器93，通过解码器93输出包含第一分类信息和第二分类信息的拼接信息序列，拼接信息序列的格式具体可以为：[一级分类][二级分类][结束]，具体可以为：[质量问题][掉毛][结束]。

在一种具体实现方式中，待训练的编码器可针对Bert(Bidirectional EncoderRepresentations from Transformers，转换器的双向编码表示)利用电商领域的原始语料进行预训练和调整优化，获得了电商领域的原始语料预训练后的编码器，提升了文本分析模型的语义向量编码效果。

在对Bert编码器进行预训练训练时，可在第二原始语料中随机选取词进行删除或者随机替换，并预测这些被删除的词。对于电子商务领域，存在一些比较关键的实体词，例如：针对“开关”,“材质”，“电器”等词汇，这些重点词汇有必要在预训练过程由编码器给予更多的关注，为此可在生成编码器的训练语料时，对于这些重点词汇赋予相对于其他词汇更高的概率加以删除。

在本公开实施例提供的文本分析模型训练方法应用于电商领域时，可结合商品图谱和业务图谱，挖掘出第二原始语料中所有的实体词，并对实体词进行删除、随机替换操作，通过删除、替换等对原始语料的干扰处理，使得模型的编码器学会对训练语料进行纠错。编码器的参数可使用Bert的配置，选取15％(比例按照字数计算百分比)的词、字进行干扰操作，保证留下的信息足够。在具体示例中，干扰比例可以为，删除:随机替换:保留原词＝8:1:1(15％)，从而使得最终电商领域预训练后，待训练文本分析模型的编码器分类效果优于Bert原模型。

在一种具体实现方式中，文本分析模型的信息抽取层的输入参数可以为：C[1×M]和H(h1，h2……hN)。其中[N×M]为电商领域预训练模型的输出参数。C包含整个输入的信息，可以为Bert编码器的1×M维度的输出结果；H矩阵的元素对应输入每个词的信息，h1-hN可以为N各M维行向量。

C和H的关系符合下述公式：

W＝C×HT；

W_attention＝softmax(W)；

H_average＝W_attention×H；

H＝concat(H_average，C)。

将编码器输出的整句的向量表示C作为Query(询问)，获得每个词的向量hi(i∈[1,N])与C的相关性矩阵W，通过C、H、W之间的关系式，将H映射到一个空间里，再执行线性变换计算。

通过softmax函数和相关性矩阵W，获得归一化的权重矩阵W_attention，最终求平均，获得了H的整体表征H_average。

如图10所示，信息抽取层101的注意力机制(Attention)子层102的作用是找出输入注意力机制字层的信息中的关键词权重。例如，输入编码器103的待分析文本为“用了一次就掉毛”，通过编码器103，对待分析文本中的每个词进行编码，得到H(h_1……h_n)；同时通过编码器103对待分析文本进行整句编码，得到C。

仍然参照图10，通过注意力机制子层102，获得待分析文本中的关键词权重W_attention，例如关键词“掉毛”的权重可以高于其它词。通过注意力机制子层102，获得关键词的平均表征H_average。同时让文本分析模型更有效的学习寻找关键词权重的特征，有利于模型进行训练。

信息抽取层101的混合子层104用于(通过concat函数等方式)拼接Attention子层的输出信息和整句信息C。

在本公开示例中，文本分析模型的解码器使用了如图11所示的LSTM(Long Short-Term Memory，长短期记忆)结构进行解码，对包含了分类信息的整体编码表征进行解码操作，输出对应的多个第一分类信息和多个第二分类信息。在模型训练阶段，可按照预设的第一分类信息和第二分类信息对LSTM进行训练，使得LSTM学习到如何输出关于整体编码表征的多种不同的分类信息。从而在预测阶段，LSTM可根据原始语料对应的整体编码表征输出多种不同的分类信息，输出内容可以为原始语料对应的所有第一分类信息与所有第二分类信息的拼接数据。相比而言，相关技术中一个分类器只能对一种第一分类信息或第二分类信息进行识别，而通过本公开实施例，文本分析模型中使用LSTM进行解码，能够同时输出多种不同的分类信息，因而无需设置多级分类器。

训练时，解码器的输入数据为标注的多级分类拼接结果，并在多级分类拼接结果的开始位置处添加[开始]标记。

解码器的初始输入为[开始]标记，输出内容为序列化的层次分类结果。

如图11所示，在解码器进行解码时，解码器输入[开始]标记，并将上一时刻的输出(x_t-1)作为下一个时刻的输入，遇到[结束]标记时，结束编码，最终输出多级分类结果(o_t-1、o_t、o_t+1)。图11中，U、V、S_t为解码器的参数。

解码器输出的内容可包括分类结果和关键词(或关键词权重)。

商品舆情的分析是商品研发中很重要的一环。本公开实施例可以自动化地处理商品所有的舆情信息并且给出详细的报告，包括评论、退换货、客服问题等。从而通过本公开实施例提供的文本分析模型和文本分析方法，能够对商品的质量控制和商品迭代开发起到重要的辅助作用。

在质量控制方面，能够获得准确用户反馈，结合舆情分类网络可以全面地掌握商品的品质状况。针对涉及安全类的问题，例如“接触不良”、“漏电”等，商品提供方或者商品销售平台可以根据需要联系用户，根据通过文本分析输出的商品的具体的问题分类信息，能够了解具体商品问题，并进行商品测试。还能够在必要的情况下进行及时的召回，保证用户生命安全。

在商品迭代开发方面，能够针对用户关注的商品质量问题，例如“掉毛”等，确定重点的迭代和开发方向，保证商品的竞争力。采用注意力机制进行关键词的发掘，可以自动找出舆情中的关键信息，提升了产品的研发效率。

本公开实施例所采用的文本分析模型，可以提升问题分类的准确率和召回率；同时实现端到端的分类方法，可以适应多分类的扩展。

通过上述过程，本公开实施例可以采用预先训练的文本分析模型对待分析文本进行分析，得到问题信息的至少一个第一分类信息和至少一个第二分类信息，进而产品供应商或者产品销售平台等相关方可以通过第一分类信息和第二分类信息，在最短的时间内快速定位问题信息，分析得到商品品质相关的各种具体问题，找出商品可能需要改进的缺陷，加速对商品进行优化迭代、更新更正。同时，本公开实施例能够判断商品是否存在涉及安全的重大问题，及时发现解决商品中安全隐患(客户人身安全隐患以及财产安全隐患)，保障用户的生命财产，实现风险防控。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施方式的介质进行说明。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种计算机可读介质，其上存储有程序。当程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的文本分析模型训练方法中的步骤、或者根据本公开各种示例性实施方式的文本分析方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

或者，上述处理器执行上述程序时用于实现如下步骤：

将待分析文本输入文本分析模型；文本分析模型为权利要求1-7中任意一项的优化后的文本分析模型；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图12所示，描述了根据本公开的实施方式的介质120，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本公开不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图13和图14对本公开示例性实施方式的装置进行说明。

如图13所示，本公开实施例的文本分析模型训练装置，包括：

第一原始语料输入模块131，用于将包含问题信息的第一原始语料输入待训练文本分析模型的编码器；

编码模块132，用于采用待训练文本分析模型的编码器，获得第一原始语料中的问题信息的语义向量，以及问题信息所包含的关键词的词向量矩阵；

信息抽取模块133，用于采用待训练文本分析模型的信息抽取层，根据语义向量和词向量矩阵，确定问题信息的整体编码表征；

解码模块134，用于采用待训练文本分析模型的解码器，对整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下所包含的多个子分类信息中的一个；

优化模块135，用于根据第一分类信息、第二分类信息和标注分类信息，对待训练文本分析模型进行优化，得到优化后的文本分析模型。

在一种实施方式中，仍然参照图13，解码模块134包括：

权重单元1341，用于对整体编码表征进行解码，获得各个关键词的权重；

权重处理单元1342，用于根据关键词的权重确定第一分类信息或第二分类信息。

在一种实施方式中，仍然参照图13，文本分析模型训练装置还包括：

预训练模块136，用于对待训练的编码器进行模型训练前的预训练，得到待训练文本分析模型的编码器。

在一种实施方式中，仍然参照图13，预训练模块136包括：

删除单元1361，用于对第二原始语料进行词语删除操作，得到训练语料；

填充语料单元1362，用于将训练语料输入待训练的编码器，使得待训练的编码器对训练语料进行删除词语填充，得到填充语料；

训练执行单元1363，用于根据填充语料和第二原始语料，对待训练的编码器进行预训练，得到待训练文本分析模型的编码器。

在一种实施方式中，删除单元还用于：

在一种实施方式中，仍然参照图13，解码模块134还包括：

整体表征单元1343，用于对整体编码表征进行解码，获得解码结果；

概率单元1344，用于根据解码结果，输出问题信息属于各个第一级分类信息的第一概率和属于各个第二级分类信息的第二概率；

概率信息处理单元1345，用于根据第一概率和第二概率，确定第一分类信息和第二分类信息。

在一种实施方式中，仍然参照图13，信息抽取模块132包括：

关键词权重单元1321，用于采用信息抽取层的注意力机制子层，根据语义向量和词向量矩阵，获得关键词的权重；

平均表征单元1322，用于采用注意力机制子层，根据关键词的权重，获得关键词的平均表征；

混合单元1323，用于采用信息抽取层的混合子层，将关键词的平均表征和语义向量进行拼接，获得整体编码表征。

如图14所示，本公开实施例提供的文本分析装置，包括：

模型输入模块141，用于将待分析文本输入文本分析模型；文本分析模型为本公开任意一项实施例所提供的优化后的文本分析模型；

模型执行模块142，用于采用文本分析模型分析待分析文本，得到待分析文本中涉及的问题信息；

分类信息获取模块143，用于采用文本分析模型，获得待分析文本的问题信息的第一分类信息和第二分类信息，其中，第一分类信息为多个第一级分类信息中的一个，第二分类信息是第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图15对本公开示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的歌曲推荐列表生成方法中的步骤。

下面参照图15来描述根据本公开的这种实施方式的计算设备150。图15显示的计算设备150仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，计算设备150以通用计算设备的形式表现。计算设备150的组件可以包括但不限于：上述至少一个处理单元1501、上述至少一个存储单元1502，连接不同系统组件(包括处理单元1501和存储单元1502)的总线1503。

总线1503包括数据总线、控制总线和地址总线。

存储单元1502可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)15021和/或高速缓存存储器15022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)15023。

存储单元1502还可以包括具有一组(至少一个)程序模块15024的程序/实用工具15025，这样的程序模块15024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备150也可以与一个或多个外部设备1504(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1505进行。并且，计算设备150还可以通过网络适配器1506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图15所示，网络适配器1506通过总线1503与计算设备150的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备150使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了上述装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种文本分析模型训练方法，包括：

采用所述待训练文本分析模型的编码器，获得所述第一原始语料中的问题信息的语义向量，以及所述问题信息所包含的关键词的词向量矩阵；

采用所述待训练文本分析模型的信息抽取层，根据所述语义向量和所述词向量矩阵，确定所述问题信息的整体编码表征；

采用所述待训练文本分析模型的解码器，对所述整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，所述第一分类信息为多个第一级分类信息中的一个，所述第二分类信息是所述第一分类信息下所包含的多个子分类信息中的一个；

根据所述第一分类信息、第二分类信息和标注分类信息，对所述待训练文本分析模型进行优化，得到优化后的文本分析模型。

2.根据权利要求1所述的方法，其中，所述对所述整体编码表征进行解码，确定第一分类信息和第二分类信息，包括：

对所述整体编码表征进行解码，获得各个所述关键词的权重；

根据所述关键词的权重确定所述第一分类信息或第二分类信息。

3.根据权利要求1所述的方法，其中，所述方法还包括：

对待训练的编码器进行模型训练前的预训练，得到所述待训练文本分析模型的编码器。

4.根据权利要求3所述的方法，其中，所述对待训练的编码器进行模型训练前的预训练，包括：

对第二原始语料进行词语删除操作，得到训练语料；

将所述训练语料输入待训练的编码器，使得所述待训练的编码器对所述训练语料进行删除词语填充，得到填充语料；

根据所述填充语料和所述第二原始语料，对所述待训练的编码器进行预训练，得到所述待训练文本分析模型的编码器。

5.根据权利要求4所述的方法，其中，所述对第二原始语料进行词语删除操作，得到训练语料，包括：

按照设定比例，对所述第二原始语料进行随机的词语删除操作，得到所述训练语料。

6.一种文本分析方法，包括：

将待分析文本输入文本分析模型；所述文本分析模型为权利要求1-5中任意一项所述的优化后的文本分析模型；

采用所述文本分析模型分析所述待分析文本，得到所述待分析文本中涉及的问题信息；

采用所述文本分析模型，获得所述待分析文本的问题信息的第一分类信息和第二分类信息，其中，所述第一分类信息为多个第一级分类信息中的一个，所述第二分类信息是所述第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

7.一种文本分析模型训练装置，包括：

编码模块，用于采用所述待训练文本分析模型的编码器，获得所述第一原始语料中的问题信息的语义向量，以及所述问题信息所包含的关键词的词向量矩阵；

信息抽取模块，用于采用所述待训练文本分析模型的信息抽取层，根据所述语义向量和所述词向量矩阵，确定所述问题信息的整体编码表征；

解码模块，用于采用所述待训练文本分析模型的解码器，对所述整体编码表征进行解码，确定第一分类信息和第二分类信息；其中，所述第一分类信息为多个第一级分类信息中的一个，所述第二分类信息是所述第一分类信息下所包含的多个子分类信息中的一个；

优化模块，用于根据所述第一分类信息、第二分类信息和标注分类信息，对所述待训练文本分析模型进行优化，得到优化后的文本分析模型。

8.一种文本分析装置，包括：

模型输入模块，用于将待分析文本输入文本分析模型；所述文本分析模型为权利要求7所述的优化后的文本分析模型；

模型执行模块，用于采用所述文本分析模型分析所述待分析文本，得到所述待分析文本中涉及的问题信息；

分类信息获取模块，用于采用所述文本分析模型，获得所述待分析文本的问题信息的第一分类信息和第二分类信息，其中，所述第一分类信息为多个第一级分类信息中的一个，所述第二分类信息是所述第一分类信息下的至少一个子级分类信息所包含的多个子分类信息中的一个。

9.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。