CN109376240A

CN109376240A - 一种文本分析方法及终端

Info

Publication number: CN109376240A
Application number: CN201811182140.XA
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-02-22
Also published as: WO2020073673A1

Abstract

本发明适用于计算机技术领域，提供了一种文本分析方法及终端，该方法包括：将待分类的目标文本分别转换为多个字符向量以及多个词向量；将所述多个词向量输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果。本发明实施例，通过至少两个文本分类模型对同一文本进行处理，能够减小因不同分类模型输出的分类结果不同而导致分类结果产生的误差，提高分类结果的准确度。

Description

一种文本分析方法及终端

技术领域

本发明属于计算机技术领域，尤其涉及一种文本分析方法及终端。

背景技术

文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。由于文本的语义不可避免地会反映人的特定立场、观点、价值和利益，因此，由文本内容分析，可以推断文本提供者的意图和目的。

近年来随着深度学习和各种神经网络模型的发展，基于神经网络的文本分析方法在信息检索、电子商务、新闻门户等众多领域得到广泛应用，以有效帮助用户从海量的文本资源中发掘用户所关注的有用的特定信息。神经网络例如，卷积神经网络(ConvolutionalNeuralNetwork，CNN)、循环神经网络(Recurrent Neural Network，RNN)。

然而，现有技术中基于神经网络的文本分析方法虽然能够捕捉文本的局部特征，但是，在文本进行超参调节后，文本的分类结果可能仍然无法达到需求的准确率；其中，超参是根据训练集要调整的参数。

发明内容

有鉴于此，本发明实施例提供了一种文本分析方法及终端，以解决现有技术中，基于神经网络的文本分析方法在文本进行超参调节后，文本的分类结果可能仍然无法达到需求的准确率的问题。

本发明实施例的第一方面提供了一种文本分析方法，包括：

将待分类的目标文本分别转换为多个字符向量以及多个词向量；

将所述多个词向量输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；

将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果。

本发明实施例的第二方面提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

实施本发明实施例提供的一种文本分析方法及终端具有以下有益效果：

本发明实施例，终端通过将待分类的目标文本同时转换成多个字符向量以及多个词向量，通过不同的文本分类模型分别处理多个字符向量以及多个词向量，将所有的文本分类模型得到的每种文本类别的概率值进行融合，确定该目标文本的分类结果。通过至少两个文本分类模型对同一文本进行处理，能够减小因不同分类模型输出的分类结果不同而导致分类结果产生的误差，提高分类结果的准确度，以词向量为最小粒度对目标文本进行处理，能够进一步提升目标文本的分类结果的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种文本分析方法的实现流程图；

图2是本发明另一实施例提供的一种文本分析方法的实现流程图；

图3是本发明一实施例提供的一种终端的示意图；

图4是本发明另一实施例提供的一种终端的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1是本发明实施例提供的一种文本分析方法的实现流程图。本实施例中文本分析方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的文本分析方法可包括：

S101：将待分类的目标文本分别转换为多个字符向量以及多个词向量。

终端获取用户选择的待分类的目标文本，或者终端从网络数据库中获取待分类的目标文本，例如，从网络数据库中获取某商家的网店的商品描述信息；或者终端通过网络爬虫(Crawler)技术获取网页内容，并从网页内容中获取目标文本。

终端在获取到待分类的目标文本时，对待分类的文本进行切词处理，得到N个词单元以及M个字符单元；之后，终端对N个词单元进行编码得到N个词向量，对M个字符向量进行编码得到M个字符向量。其中，N个词向量以及M个字符向量由同一个目标文本得到。M、N均为大于或等于3的正整数。

S102：将所述多个词向量输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果。

终端将目标文本对应的多个词向量输入预先训练的第一文本分类模型进行处理，并输出多个词向量对应的分类结果，从而得到目标文本的第一分类结果；将目标文件对应的多个字符向量输入预先训练的第二文本分类模型进行处理，并输出多个字符向量对应的分类结果，得到目标文本的第二分类结果。第一分类结果以及第二分类结果用于标识目标文本属于一种或至少两种文本类别。

其中，预先训练的第一文本分类模型是通过使用机器学习算法对训练样本集中文本样本数据的词向量进行训练得到，在训练的过程中，第一文本分类模型的输入是训练样本集中文本样本数据的词向量，输出是每个已知的文本类别对应的概率。训练样本集包括预设数目的文本样本数据。预设数目可以是100、500、1000等，具体可根据实际需要设置。

第一文本分类模型可以为至少两个，例如卷积文本分类模型(TextCNN)、循环神经网络文本分类模型(TextRNN)、TextRCNN。TextCNN是基于卷积神经网络(ConvolutionalNeuralNetwork，CNN)训练得到；TextRNN是基于循环神经网络(RecurrentNeural Network，RNN)训练得到；TextRCNN基于双向循环神经网络(RecurrentConvolutional Neural Network，RCNN)训练得到。

预先训练的第二文本分类模型是通过使用机器学习算法对训练样本集中文本样本数据的字符向量进行训练得到，在训练的过程中，第二文本分类模型的输入为训练样本集中文本样本数据的字符向量，输出为每个已知的文本类别对应的概率。例如，TextCNN、TextRCNN。

第一文本分类模型以及第二文本分类模型均为多分类模型，包括输入层、中间层以及输出层。对于TextCNN而言中间层包括卷积层、池化层以及全连接层；对于TextRNN而言，中间层为隐藏层；对于TextRCNN而言，中间层包括双重循环结构、卷积层、池化层以及全连接层。

输入层用于输入待分类文本对应的词向量或字符向量。

中间层用于对词向量或字符向量进行处理；其中，双向循环结构：比传统的基于窗口的神经网络噪声要小，能够最大化地提取上下文信息；池化层：自动决策哪个特征占有更加重要的作用。

输出层用于通过softmax函数对中间层处理得到的数据进行进一步处理，得到多个类别的概率值。其中，softmax函数

可以看到它有多个值，所有值加起来刚好等于1，每个输出都映射到了0到1区间，可以看成是概率问题。为多个输入，训练其实就是为了逼近最佳的θ^T。

下面以TextRCNN模型处理待分类文本对应的词向量为例进行说明：先经过1层双向长短时记忆循环神经网络LSTM，该词的左侧的词正向输入进去得到一个词向量，该词的右侧反向输入进去得到一个词向量。再结合该词的词向量，生成一个1×3k的向量；再经过全连接层，tanh为非线性函数，得到向量y2；向量y2再经过最大池化层进行处理，得到最大化向量y3；y3再经过全连接层进行处理，得到分类结果。

S103：将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果。

终端可以将第一分类结果以及第二分类结果进行等概率融合，得到目标文本的最终分类结果。此时，终端为第一分类结果以及第二分类结果分配的权重值均为0.5。

假设，第一分类结果中目标文本属于第一文本类别的概率为0.7，目标文本属于第二文本类别的概率为0.1，目标文本属于第三文本类别的概率为0.2；第二分类结果中目标文本属于第一文本类别的概率为0.6，目标文本属于第二文本类别的概率为0.3，目标文本属于第三文本类别的概率为0.1；那么将第一分类结果以及第二分类结果进行等概率融合，可得：

目标文本属于第一文本类别的概率为：0.7×0.5+0.6×0.5＝0.65；

目标文本属于第二文本类别的概率为：0.1×0.5+0.3×0.5＝0.2；

目标文本属于第三文本类别的概率为：0.2×0.5+0.1×0.5＝0.15。

基于上述结果，终端判定目标文本属于第一文本类别，得到目标文本的最终分类结果。

在另一实施方式中，终端可以为第一分类结果以及第二分类结果分配不同的权重值，将第一分类结果以及第二分类结果进行融合，得到目标文本的最终分类结果。第一分类结果的权重与第二分类结果的权重值之和为1。

请参见图2，图2是本发明另一实施例提供的一种文本分析方法的实现流程图。本实施例中文本分析方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。本实施例的文本分析方法包括以下步骤：

S201：将待分类的目标文本分别转换为多个字符向量以及多个词向量。

本实施例中S201与上一实施例中S101相同，具体请参阅上一实施例中S101的相关描述，此处不赘述。

S202：调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列。

语料增强函数包括用于随机排列多个词向量的第一语料增强函数，和/或，用于对短文本包含的多个词向量进行删减的第二语料增强函数。第一语料增强函数例如shuffle函数，第二语料增强函数例如，drop函数。

目标词向量序列有多个目标词向量组成，多个目标词向量之间具有排列顺序。

终端可以调用语料增强函数对初始的词向量序列进行删减或随机打乱排列顺序等处理，得到目标词向量序列，以使得终端在通过第一文本分类模型对进行数据增强后的词向量进行处理时，能够提升分类结果的准确率。其中，初始的词向量序列由目标文本对应的多个词向量序列构成，多个词向量的排列顺序由目标文本中每个词向量对应的位置确定。

进一步地，S202可以包括S2021：调用第一语料增强函数随机打乱所述多个词向量的排列顺序，得到多个随机排列的目标词向量序列。

终端可以调用第一语料增强函数对目标文本对应的多个词向量进行处理，以随机打乱目标文本对应的多个词向量的排列顺序，从而得到随机排列的目标词向量序列。每个目标词向量序列包括多个词向量。目标词向量序列的数目可以为一个，也可以为至少两个。当目标词向量序列的数目为至少两个时，经过第一语料增强函数处理得到的至少两个词向量序列中所包含的词向量相同，且各词向量的相对位置各不相同。

例如，目标文本对应的词向量为“A、B、C、D、E、F”，初始的词向量序列为“ABCDEF”，经过第一语料增强函数对初始的词向量序列进行处理后得到的目标词向量序列为“ABDEFC”、“CABDEF”“ACDEFB”等。

进一步地，S202可以包括S2022：调用第二语料增强函数对所述多个词向量进行随机删减，得到多个随机删减词向量后的目标词向量序列。

终端还可以调用第二语料增强函数对目标文本对应的多个词向量进行处理，以随机对目标文本包含的多个词向量进行删减，从而得到多个随机删减词向量后的目标词向量序列。每个目标词向量序列包括至少两个词向量，且每个词向量序列包含的词向量部分不同。

例如，目标文本对应的词向量为“A、B、C、D、E、F”，初始的词向量序列为“ABCDEF”，经过第二语料增强函数对初始的词向量序列进行处理后得到的目标词向量序列为：“ABC”、“ABD”、“ABDF”、“ACEF”、“AF”等。

目标文本对应的词向量集包括目标文本对应的初始的词向量序列，还可以包括经过语料增强函数处理得到的目标词向量序列。

可以理解的是，S2021与S2022为并列步骤，可同时执行。当同时执行S2021以及S2022时，目标文本对应的词向量集包括目标文本对应的初始的词向量序列、还可以包括经过第一语料增强函数处理得到的目标词向量序列，以及经过第二语料增强函数处理得到的目标词向量序列。

S203：将所述目标文本对应的词向量集输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；其中，所述词向量集包括所述目标词向量序列以及所述多个词向量。

终端将目标文本对应的词向量集包含的初始的词向量序列以及经过语料增强函数处理得到的目标词向量序列，输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果。初始的词向量序列由S201中的多个词向量组成。

本实施例第一分类模型对词向量序列中的词向量进行处理的过程，请参阅上一实施例中S102第一分类模型对多个词向量的处理过程，此处不赘述。终端将多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果的具体实现方式请参阅上一实施例中S102的相关描述，此处不赘述。

进一步地，终端在采用训练样本的词向量训练第一文本分类模型时，可以调用语料增强函数对训练样本的词向量进行处理，得到训练样本对应的多个目标词向量序列，从而得到扩充的训练样本词向量集，以采用处理后的训练样本词向量集进行训练。样本增强方法请参阅上述S202的相关描述。

S204：将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果。

目标文本属于第一文本类别的概率为：0.7×0.5+0.6×0.5＝0.65；

目标文本属于第二文本类别的概率为：0.1×0.5+0.3×0.5＝0.2；

目标文本属于第三文本类别的概率为：0.2×0.5+0.1×0.5＝0.15。

再例如，假设第一文本分类模型包括TextCNN1、TextRNN1以及TextRCNN1，第二文本分类模型包括TextCNN2以及TextRCNN2，那么TextCNN1、TextRNN1、TextRCNN1、TextCNN2以及TextRCNN2各自对应的权重值为0.2。

进一步地，为了提高分类结果的准确度，S204可以具体包括S2041～S2042，具体如下：

S2041：基于所述第一文本分类模型以及所述第二文本分类模型的性能指标，确定所述第一分类结果的第一权重值以及所述第二分类结果的第二权重值。

性能指标包括分类结果的准确度，还可以包括分类结果的稳定性。其中，文本分类模型的分类结果的准确度越高，其对应的权重值越大；文本分类模型的分类结果的稳定性越高，其对应的权重值越大。

当性能指标包括至少两项时，终端可以从至少两项性能指标中确定关键的性能指标，并基于关键的性能指标分配权重值。关键的性能指标是最能体现分类模型的优劣的指标。

例如，第一文本分类模型包括TextCNN1、TextRNN1以及TextRCNN1，第二文本分类模型包括TextCNN2以及TextRCNN2。当TextRCNN1以及TextRCNN2的性能较优时，TextRCNN1以及TextRCNN2对应的权重值高于TextCNN1、TextRNN1以及TextCNN2的权重值。TextCNN1、TextRNN1、TextRCNN1、TextCNN2以及TextRCNN2各自对应的权重值的总和为1。

S2042：基于所述第一分类结果、所述第一权重值、所述第二分类结果以及所述第二权重值，计算所述目标文本的最终分类结果。

终端基于第一分类结果、第一权重值、第二分类结果以及第二权重值，分别计算每个文本分类模型的权重值与其对应的每种类别的概率值的乘积，并将相同文本类别对应的乘积相加得到该文本类别最终的概率值，基于每种文本类别最终的概率值确定分类结果。其中，所有权重值之和为1，终端基于每种类别最终的概率值，按从高到低的顺序依次选取K个概率值，根据K个概率值对应的类别作为目标文本的分类结果。K为大于或等于1的整数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图3，图3是本发明一实施例提供的一种终端的示意图。终端包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，终端3包括：

转换单元310，用于将待分类的目标文本分别转换为多个字符向量以及多个词向量；

分类单元320，用于将所述多个词向量输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；

分类结果融合单元330，用于将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果。

可选地，终端还可以包括：

语料增强单元，用于调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列；

分类单元320具体用于：将所述目标文本对应的词向量集输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；其中，所述词向量集包括所述目标词向量序列以及所述多个词向量。

进一步地，语料增强单元具体用于：调用第一语料增强函数随机打乱所述多个词向量的排列顺序，得到多个随机排列的目标词向量序列。

进一步地，语料增强单元具体用于：调用第二语料增强函数对所述多个词向量进行随机删减，得到多个随机删减词向量后的目标词向量序列。

进一步地，分类结果融合单元330具体用于：

基于所述第一文本分类模型以及所述第二文本分类模型的性能指标，确定所述第一分类结果的第一权重值以及所述第二分类结果的第二权重值；

基于所述第一分类结果、所述第一权重值、所述第二分类结果以及所述第二权重值，计算所述目标文本的最终分类结果。

图4是本发明另一实施例提供的一种终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个终端的文本分析方法实施例中的步骤，例如图1所示的S101至S103。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各单元的功能，例如图3所示单元310至330功能。

示例性的，所述计算机程序42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端4中的执行过程。例如，所述计算机程序42可以被分割成转换单元、分类单元以及分类结果融合单元，各单元具体功能如上所述。

所述终端可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端4的示例，并不构成对终端4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端4的内部存储单元，例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储终端，例如所述终端4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待分类的目标文本分别转换为多个字符向量以及多个词向量之后，还包括：

调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列；

所述将所述多个词向量输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果，包括：

将所述目标文本对应的词向量集输入预先训练的第一文本分类模型进行处理，得到第一分类结果；将所述多个字符向量输入预先训练的第二文本分类模型进行处理，得到第二分类结果；其中，所述词向量集包括所述目标词向量序列以及所述多个词向量。

3.根据权利要求2所述的方法，其特征在于，所述调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列，包括：

调用第一语料增强函数随机打乱所述多个词向量的排列顺序，得到多个随机排列的目标词向量序列。

4.根据权利要求2所述的方法，其特征在于，所述调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列，包括：

调用第二语料增强函数对所述多个词向量进行随机删减，得到多个随机删减词向量后的目标词向量序列。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果，包括：

6.一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

7.根据权利要求6所述的终端，其特征在于，所述将待分类的目标文本分别转换为多个字符向量以及多个词向量之后，所述处理器执行所述计算机程序时还实现如下步骤：

8.根据权利要求7所述的终端，其特征在于，所述调用语料增强函数对所述多个词向量进行处理，得到目标词向量序列，包括：

9.根据权利要求6至8任一项所述的终端，其特征在于，所述将所述第一分类结果以及所述第二分类结果进行融合，得到所述目标文本的最终分类结果，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。