CN117708324A

CN117708324A - 一种文本主题分类方法、装置、芯片及终端

Info

Publication number: CN117708324A
Application number: CN202311472935.5A
Authority: CN
Inventors: 郭军; 柯武生; 翁国权
Original assignee: Shandong Ruixin Semiconductor Technology Co ltd
Current assignee: Shandong Ruixin Semiconductor Technology Co ltd
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-03-15

Abstract

本发明涉及人工智能技术领域，提供了一种文本主题分类方法、装置、芯片及终端，该方法通过获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理得到第一词集合；将第一词集合输入至ERNIE‑BiGRU模型中，对第一词集合中的各词语进行语义分类得到第二词集合；将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算，进而实现文本主题的分类。本方法通过ERNIE‑BiGRU模型对文本主题转换成句子级向量表示的第二词集合，保留句子中词与词之间的内在联系和完整性，再按照预设规则进行相关度运算，进一步确定文本主题的分类，解决了现有文本分类方法分类不准确的问题。

Description

一种文本主题分类方法、装置、芯片及终端

技术领域

本发明涉及人工智能技术领域，特别是涉及一种文本主题分类方法、装置、芯片及终端。

背景技术

文本分类是自然语言处理的一个热门问题。随着我国经济的持续发展，信息成爆发式增长，由于文本的多样性和复杂性，而且文本的内容交叉、内容相近、类别间相关度较高，以及界限不明确，因此快速对海量的文本进行分类有着重要的意义。

而不同于英文语境中使用同一个单词进行字符级的变化适应多种词性和时态表示特定含义，语境中每一个字是独立的，想要表达时态等信息需要通过特定词语进行表示，可见将英文的文本的特征提取方法应用于中文文本，势必会影响关键特征的提取任务，最终导致分类不准确。

发明内容

基于此，本发明提供一种文本主题分类方法、装置、芯片及终端，用于提高文本分类的准确率。

第一方面，提供一种文本主题分类方法，包括：

获取待分类的文本主题，并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；

将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合；

将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算；

基于各第二词集合与所述预设领域词语本体的相关度，确定所述文本主题的分类。

可选的，将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算，包括：

规则1：若第二词集合中的词语与所述预设领域词语本体中的词语相同，则继续执行所述基于各第二词集合与所述预设领域词语本体的相关度，确定所述文本主题的分类的步骤；若不相同，则执行规则2；

规则2：对所述第二词集合中的词语与所述预设领域词语本体中的词语进行概念匹配，若概念匹配成功，则计算概念相关度；若概念匹配不成功，则执行规则3；

规则3：对所述第二词集合中的词语与所述预设领域词语本体中的词语进行义元匹配，计算义元相关度。

可选的，将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算，之后还包括：

将相关度的值大于预设阈值的词语对应添加到所述预设领域词语本体中以更新所述预设领域词语本体。

可选的，获取待分类的文本主题，并对所述文本主题依次进行去除噪处理、分词处理和混淆映射处理，得到第一词集合，包括：

采集网页或者用户输入的文本主题，并基于语境中词语、句子之间的无意义连接字符查询所述文本主题中的噪音字符和停用词，得到语句短文本；

将所述语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点，并进行标记，得到分词序列；

识别所述分词序列中的英文和网络用语，查询网络词典中所述英文和所述网络用语对应的含义，并替换，得到第一词集合。

可选的，将所述语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点，并进行标记，得到分词序列，包括：

将所述语句短文本中的待拆分句子与词典中的字或词进行匹配，生成的前缀树；

根据所述前缀树中各字或词，按照不同的组词长度生成一个有向无环图；

利用提前训练好的隐性马尔科夫转移概率矩阵、观测概率矩阵，使用Viterbi算法找到概率最大的子路径，并记录下所述概率的最大子路径在所述有向无环图中的起始节点和结束节点位置；

基于所述起始节点和所述结束节点位置作为分割位置，对所述待拆分句子重新组合标记，得到分词序列。

可选的，预先训练好的ERNIE-BiGRU模型由ERNIE预训练子模型、BiGRU子模型和softmax子模型组成，所述将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合，包括：

将所述第一词集合输入至所述ERNIE预训练子模型，对所述第一词集合进行预训练,得到句子级的词向量表示序列；

利用所述BiGRU子模型提取所述词向量表示序列中各词语的上下文信息；

利用所述softmax子模型，基于提取到的上下文信息进行语义分类，得到第二词集合。

可选的，ERNIE预训练子模型所述ERNIE预训练子模型为transformer编码和知识整合两个部分组成的网络，所述将所述第一词集合输入至所述ERNIE预训练子模型，对所述第一词集合进行预训练,得到句子级的词向量表示序列，包括：

将所述第一词集合输入至所述transformer编码，通过所述transformer编码器利用全注意力机制提取所述第一词集合中每个句子的关键词，并基于提取到的关键词进行编码，得到所有词语的向量表示；

将所有词语的向量表示进行加权求和，基于求和对各向量表示进行排序，得到向量序列；

通过多阶段的知识遮蔽策略，对所述第一词集合中各词语进行随机遮掩，并对遮掩后的短语进行语义解析并整合；

将整合得到的短语，对所述向量序列进行调整，得到句子级的词向量表示序列。

第二方面，提供一种文本主题分类装置，包括：

获取模块，用于获取待分类的文本主题，并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；

预测模块，用于将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合；

计算模块，用于将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算；

分类模块，用于基于各第二词集合与所述预设领域词语本体的相关度，确定所述文本主题的分类。

可选的，获取模块包括：

去燥单元，用于采集网页或者用户输入的文本主题，并基于语境中词语、句子之间的无意义连接字符查询所述文本主题中的噪音字符和停用词，得到语句短文本；

标记单元，用于将所述语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点，并进行标记，得到分词序列；

替换单元，用于识别所述分词序列中的英文和网络用语，查询网络词典中所述英文和所述网络用语对应的含义，并替换，得到第一词集合。

可选的，所述标记单元具体用于：

第三方面，提供一种芯片，包括第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上所述的文本主题分类方法的各个步骤。

第四方面，提供一种终端，包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序，第二处理器执行所述计算机程序时实现如上介绍的文本主题分类方法的各个步骤。

本申请提供的文本主题分类方法、装置、芯片及终端，通过获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；将第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过ERNIE-BiGRU模型对第一词集合中的各词语进行语义分类得到第二词集合；将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算；基于各第二词集合与预设领域词语本体的相关度，最后实现对文本主题的分类。本方法可对文本主题进行处理得到第一词集合，通过ERNIE-BiGRU模型对文本主题转换成句子级向量表示的第二词集合，保留句子中词与词之间的内在联系和完整性，之后再基于与预设领域词语本体按照预设规则进行相关度运算，基于相关度确定文本分类，解决了现有的文本分类不准确的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本主题分类方法的第一种流程示意图；

图2为本发明实施例提供的本体语义相关度计算流程图；

图3为本发明实施例提供的文本主题分类方法的第二种流程示意图；

图4为本发明实施例的ERNIE-BiGRU模型的整体架构图；

图5为本发明实施例的ERNIE预训练子模型的结构图；

图6为本发明实施例的BiGRU子模型的结构图；

图7为本发明实施例提供的一种预设领域词语本体框架图；

图8为本发明实施例文本分类装置的基本结构框图；

图9为本发明实施例提供的一种终端的基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如11、12等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参阅图1，图1为本实施例提供的文本主题分类方法的一种流程示意图，具体包括以下步骤：

S11，获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合。

该步骤中，对于文本主题的获取，具体是在法律授权的前提下，利用爬虫工具调用搜索引擎从对应的资源地址中爬取网页文本主题，该资源地址为预先设置的，获取待爬取队列中统一资源定位符(Uniform Resource Locator，URL)对应的文本主题。文本主题可以是文章标题、新闻标题、视频的文本主题标题等的主题名称，或者是一段短文本，例如摘要、简述等。在本发明实施例中，爬虫可以通过现有技术进行网页资源请求，并采用现有技术解析出各个请求中的URL并添加至待爬取队列中。

当然，也可以是通过摄像头等监控工具从书籍或者资料文档中抓取，然后对抓取到的数据(文本主题)先转换为短文本，然后对短文本进行预处理，该预处理包括去噪声、去停用词、分词和混淆映射等处理步骤，其主要是为了去除无用信息，在特征提取过程中获得更加准确的词向量以方便计算机处理。当然，也可以不转换为短文本而直接对抓取到的数据(文本主题)进行预处理。

此外，由于大多数抓取到的数据(文本主题)中都存在一定的噪声和不表达意思的词语，因此在分类之前将抓取到的数据(文本主题)的无用部分去除。

S12，将第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过ERNIE-BiGRU模型对第一词集合中的各词语进行语义分类，得到第二词集合。

知识增强的语义表示(Enhanced Representation through KnowledgeIntegration,ERNIE)模型，是在BERT模型的基础上，对BERT预训练时的逻辑进行了改进,同时预训练的数据大量采用了数据集,因此更加符合本发明的使用需求。另外，为了进一步提取文本主题上下文的信息,在ERNIE模型的基础上加入了双向门限循环单元(Bidirectional Gated Recurrent Unit,BiGRU)，将ERNIE模型训练后的词向量作为BiGRU的输入进行进一步的特征提取,以得到更好的分类结果。

本实施例中，ERNIE-BiGRU模型基于ERNIE模型，使用Transformer的双向编码器表示，利用注意力机制(attention机制)，使得模型的上下层全部直接互相连接,真正实现了模型中所有层的双向连接的模型。注意力机制相较于传统的LSTM、GRU等模型在捕捉远距离的相互依赖特征时，随着时间的增长，会出现有效捕捉效果下降的问题，注意力机制在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，最后将所有单词的表示进行加权求和，而权重是通过该词的表示与被编码词表示的点积并通过softmax得到的。使用注意力机制会使远距离依赖特征之间的距离被极大缩短，特征的有效利用率得到大幅提高。因此，注意力机制结构可以更好地建模用户的行为序列。

ERNIE-BiGRU模型整个模型由3个部分组成，具体如图4所示。

首先,对经过预处理的数据集使用ERNIE预训练模型(以下简称“ERNIE模型”)进行预训练,得到句子级的词向量表示；

然后,将模型输出作为BiGRU(双向门限循环单元)层的输入,进一步提取句子中每个词的上下文信息；

最后,使用softmax层进行语义分类。

具体的，将第一词集合输入至ERNIE-BiGRU模型中，通过该模型对第一词集合中的每个词语进行编解码，转换为词向量，基于词向量利用双向解析法对各词语进行语义解析，得到对应的语义特征并进行语义分类得到第二词集合。

在步骤S12之后，本申请实施例采用本体语义相关度算法作为分类的方法，该方法首先计算词之间的相关度，算法流程如图2所示。主要过程是：先比较词语匹配；如果词语不匹配，再进行概念相关度计算；在概念不匹配的情况下，最后进行义元相关度计算，主要利用义元在义元树的结构中的节点的深度和两个义元节点间的距离长度进行相关度值的计算。此处先进行一些概念介绍。

预设领域词语本体，是指某个领域最核心最本质的概念集合并且给出这些概念正规明确的表述。这些概念在其他领域出现的几率很小并且可以唯一确定某个领域。在本申请实施例的一些示例中，预设领域词语本体框架可以如图7所示。在该框架图中：

Keyword表示特征词，是用于区别不同领域的有代表性的词。每个特征词都包含以下内容：

Concept为概念，一个特征词可能有N个概念；每个概念又由不同的义元组成；

Semno为义元号，根据义元号可以看到不同义元在树结构中节点的深度，Sem为义元值；

FatherPath为义元在整个树结构中从根结点到当前节点所经历的路径；

ChildPath为义元在树结构中从当前结点到最末尾的叶子节点所经历的路径；

Synonyms为特征词Keyword的同义词和近义词。

S13、将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算。

在本申请实施例中，将待分类的文本主题表示为D，预设领域词语本体表示为O_i，sim(A,B)表示A和B的相关度值。步骤S13的输入为第二词集合：待分类的文本主题D，设置预设领域词语本体O＝{O₁,O2...,O_i}，则按照规则1至规则3输出相关度结果。如：文本主题D中的词“w_k概念1|…概念n|”和预设领域词语本体O_i中的词“kwl概念1|…概念m|”在进行相关度比较时，遵循以下规则1至规则3实现：

规则1、若第二词集合中的词语与预设领域词语本体中的词语相同，则继续执行基于各第二词集合与预设领域词语本体的相关度，确定分类的步骤；若不相同，则执行规则2。

即当w_k和kw_l相同时，则sim(w_k,km_l)＝1，并且结束w_k和O_i中其余词的比较。若不相同时，进行规则2；

规则2、对第二词集合中的词语与预设领域词语本体中的词语进行概念匹配，若概念匹配成功，则计算概念相关度；若概念匹配不成功，则执行规则3。

即当w_k和kw_l不相同时，进行基于词的概念的比较，即w_k和kw_l中的概念两两进行比较，若存在两个概念完全相同，则：

其中，α为人为给出的权重因子，m和n分别为w_k和kw_l的概念个数，f(con_i,con_j)为概念完全匹配的个数，当con_i＝con_j时，f(con_i,con_j)＝1，否则，转规则3。

规则3、对第二词集合中的词语与预设领域词语本体中的词语进行义元匹配，计算义元相关度。

即当概念匹配不成功时，进行概念中基于义元的匹配比较，则：

其中，f(p_i,p_j)为p_i和p_j两个义元之间的语义距离，deep_ij为p_i和p_j两个义元在义元树中的公共节点深度。当p_i＝p_j时，则d_ij＝0；当pi≠pj时，d_ij是p_i和p_j在义元层次体系中的路径长度，是一个正整数。γ是一个可调节的参数。β为人为给出的权重因子，x和y分别为w_k和kw_l的义元个数。其中，两个义元路径越长，公共深度越深，其语义相关度值越大。例如：义元“事务”的义元号为“111311”，义元“钱财”的义元号为“1111229”，义元“事情”的义元号为“11131”，则“事务”与“钱财”两个义元的公共节点深度为3，两个义元的距离为7，“事务”与“事情”两个义元的公共节点深度为3，两个义元的距离为5，则义元“事务”与“事情”更为相近。

本申请实施例通过计算不同概念所包含的相同的义元信息量来衡量词之间的相关程度，当不同的概念包含的相同义元越多，概念相关度值就越大。以此作为待分类的文本主题和预设领域词语本体相关度比较的基础，这样可以省略掉很多对分类意义不大的大量计算过程。例如：“基于VGG卷积神经网络模型的表情识别算法”和“基于深度残差网络模型的语义识别算法”中，“VGG卷积神经网络”和“深度残差网络”“表情识别”和“语义识别”具有不同的概念，但是两个词语中具有相同的义元“网络模型”和“识别算法”，从而可以确定相关度，而对于没有相同义元的两个词语可以根据义元在义元树中的深度以及义元之间的距离进行相关度比较。

在本申请实施例的一些示例中，在将相关度的值大于预设阈值的词语对应添加到预设领域词语本体中以更新预设领域词语本体。例如当sim(w_k,kw_j)的值大于某个给定的阈值时，可以将词w_k添加到预设领域词语本体O_i中，对于预设领域词语本体进行更新。

S14、基于各第二词集合与预设领域词语本体的相关度，确定文本主题的分类。

词w_k与本体O_i的相关度值取wk和kwj相关度的最大值如下：

sim(w_k,O_i)＝max{sim(w_k,kw₁),sim(w_k,kw₂),...,sim(w_k,kw_M)}

其中，M为预设领域词语本体中词语的个数。

文本主题D与预设领域词语本体Oi的相关度计算公式为:

其中，N为文本主题D中的词的个数。

最后，文本主题D属于相关度结果sim(w_k,O_i)最大的那个类别。

综上所述，本方法可先对文本主题进行处理得到第一词集合，通过ERNIE-BiGRU模型对文本主题转换成句子级向量表示的第二词集合，保留句子中词与词之间的内在联系和完整性，之后再基于与预设领域词语本体按照预设规则进行相关度运算，基于相关度确定文本主题的分类，解决了现有的预训练模型中句子级的文本分类不准确的问题。

请参阅图3，图3为本实施例提供的文本主题分类方法的第二种流程示意图，具体包括以下步骤：

S21，获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合。

本实施例中，通过采集网页上的数据或者用户输入的数据，并基于语境中词语、句子之间的无意义连接字符查询数据中的噪音字符和停用词，得到语句短文本；将语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测有向无环图中词语的分割节点，并进行标记，得到分词序列；识别分词序列中的英文和网络用语，查询网络词典中英文和网络用语对应的含义，并替换，得到第一词集合。

在实际应用中，对于去除噪处理具体包括去除噪声和去停用词两个步骤，具体操作方法如下：

(1)去除噪声

去除短文本噪声是预处理中主要的一环。去噪又称数据清洗，就是把获取的文本主题中冗余的且没有实际意义的短文本或符号数据清洗干净。在新闻短文本中通常会包含表情和特殊符号如非标点、打印字符、特殊字符、数字及限定符等，这些内容没有特殊含义有时只表示语义停顿和间隔，通常使用字典匹配或正则表达式匹配的方式去除噪声并将去除的词汇使用空格代替。

(2)去停用词

对于停用词的去除工作，主要通过查询停用词库确定并去除停用词。在语境中的停用词主要指一些对文本主题表意没有作用以及没有实际意义或价值的修饰性词语，如汉语中的助词、人称、关联词及语气词等。去停用词主要是为了提高特征提取的效率同时降低停用词的大量重复使用对于特征提取准确性的影响。这些词语在口语交流过程中使用可以为语言增加情感特征，但是在文本分类过程中其携带的信息量极少，对分类的贡献微不足道。本文中使用的到停用词表由哈工大停用词库等进行整理去重后得到1322个词语。

本实施例中，在去燥和去停用词之后，对文本主题进行分词处理，其中该实施例中分词处理具体是利用jiaba分词法实现，具体实现流程如下：将语句短文本中的待拆分句子与词典中的字或词进行匹配，生成的前缀树；根据前缀树中各字或词，按照不同的组词长度生成一个有向无环图；利用提前训练好的隐性马尔科夫转移概率矩阵、观测概率矩阵，使用Viterbi算法(维特比算法)找到概率最大的子路径，并记录下概率的最大子路径在有向无环图中的起始节点和结束节点位置；基于起始节点和结束节点位置作为分割位置，对待拆分句子重新组合标记，得到分词序列。

在实际应用中，jieba是目前最好的Python中文分词组件，它主要有以下3种特性：支持3种分词模式：精确模式、全模式、搜索引擎模式；支持繁体分词；支持自定义词典。jieba分词过程中使用到的词典是其自带词典。该词典由近35万行构成，每一行分别包含了目标词、出现次数和词性。为了提高查找效率将词典中词语构建成一颗前缀树。在分词过程中将待拆分句子与词典生成的前缀树匹配，根据句子中所有的组词方式生成一个有向无环图。其中有向无环图中每一个节点表示的是句子的索引，每一条边表示一个词语，每条边上的字或词都在字典中。

使用动态规划的方法计算每个汉字的节点到文本结尾的所有路径中出现概率最大的子路径，并记录下该概率的最大子路径在有向无环图中的起始节点和结束节点位置，根据节点的起始位置，得到分词结果。

进一步的，对于词典中没有记录的未登录词，jieba分词方法中采用了HMM(HiddenMarkov Model，隐性马尔科夫模型)来处理。利用BEMS表示隐藏状态，观测状态为待切分句子。其中B表示begin即词语的开始部分；E代表end为词语末尾部分；M表示middle即中间位置；S表示single即独立部分。将待分词的短文本使用BEMS模型表示，结合提前训练好的HMM转移概率矩阵、观测概率矩阵，使用Viterbi算法找到概率最大的分词方式。并在序列中将B之前、E之后以及S前后的位置作为分割位置，对待分词的句子重新组合。

其中，混淆映射处理具体是经过对分词后的结果进行观察发现，在短文本的分词结果中存在大量缩写及网络用语等，如“GDP”表示国内生产总值、“yyds”表示永远的神、“emo”表示心情低落等等。这些词语不是噪声和停用词而是表达了实际的含义词语。这些专业名词缩写和网络用语对于关键词的提取很容易产生误导，可以使用字典匹配替换的方式将文本中的缩写转换为文字。

S22，将第一词集合输入至ERNIE预训练子模型，对第一词集合进行预训练,得到句子级的词向量表示序列；

本实施例中，ERNIE预训练子模型为ERNIE-BiGRU模型中的一部分，其具体为transformer编码和知识整合两个部分组成的网络，在对第一词集合中的词语向量化时，具体是：

将第一词集合输入至transformer编码，通过transformer编码器利用全注意力机制提取第一词集合中每个句子的关键词，并基于提取到的关键词进行编码，得到所有词语的向量表示；

通过多阶段的知识遮蔽策略，对第一词集合中各词语进行随机遮掩，并对遮掩后的短语进行语义解析并整合；

将整合得到的短语，对向量序列进行调整，得到句子级的词向量表示序列。

ERNIE预训练子模型是一种基于知识遮蔽策略的增强型模型。通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。ERNIE模型在结构上主要分为transformer编码和知识整合两个部分。前者使用transformer作为模型的基本编码器,生成对应的词向量表示,以保留词在文本中的上下文信息；后者则通过多阶段的知识遮蔽策略,将短语和实体层次的知识整合到语言表示中，结构如图5所示。

由图5结构可以看出,模型的输出部分包含了文本上下文信息的词向量表示,且每个词向量[T1,T2,T3,…,Tn]都包含了整个序列的文本信息。由于传统的语言模型是以预测下一个词为训练目标的,因此使用双向编码会使得需要预测的词在多层上下文之间间接地“看到自己”,也就是说,如果要预测t时刻的输Ent,则每个输入都会在隐藏层中看到目标En的信息,造成信息泄漏。为了解决这一问题,BERT模型将对应位置的输入变成[mask]标记,随机将输入序列的一部分遮蔽住。ERNIE预训练子模型在此基础上进行了进一步的优化,提出了一个多阶段的知识遮蔽策略,将字的遮蔽上升为短语和实体层面的遮蔽。

具体的，ERNIE预训练子模型是基于多层双向transformer编码器构建的语言模型。transformer编码器用的是全注意力机制。注意力机制类似于人类理解句子的原理，是根据句子中的关键点去理解句子的整体意思，其原理如下公式所示。

其中，Q，K，V表示输入字向量矩阵，dk为输入向量维度，T表示转置。

在计算过程中，transformer编码器将句子中任意两个单词通过一个计算步骤直接联系起来，并将所有单词的表示进行加权求和，而权重是由该词的表示与被编码词表示的点积通过softmax层得到的，以此来极大地缩短远距离依赖特征之间的距离,大幅提高了特征的有效利用率。

S23，利用BiGRU子模型提取词向量表示序列中各词语的上下文信息；

该步骤中，BiGRU子模型为双向门限循环单元，基于此，提取上下文信息过程如下：

利用双向门限循环单元，分别从正向和逆向方向上预测词向量表示序列中各词语在文本中的前后联系；

基于前后联系，利用语义计算公式对各词语进行向前和向后的语义解析，得到各词语的上下文信息。

本实施例中，语义计算公式为：

z_t＝σ(ω_z·[h_t-1,x_t])

r_t＝σ(ω_r·[h_t-1，x_t])

其中，z_t为更新门；σ为sigmoid非线性激活函数；ω_z，ω_r，ω为权值矩阵；h_t，h_t-1为t时刻和前一时刻的隐藏层状态；x_t为t时刻的输入；r_t为重置门。

该BiGRU子模型利用双向保留信息的方式来得到一个词在前后文中的联系。在文本分类场景下，BiGRU可以通过上下文的信息得到一个词在文本中的语义特征,并尽可能地保留这个词在上下文中的信息,提高了分类的准确率。BiGRU的结构模型如图6所示。由图可以看出,t时刻BiGRU单元的隐藏状态是由t时刻前向隐藏层状态的输出和t-1时刻反向隐藏层状态的输出共同决定的。因此，对于一个句子中的每个词而言,该词的语义特征是由该词所处句子中的位置以及该词对应上下文的信息共同决定的，这样可以尽可能保留了一个词在上下文中的信息，提高了分类的准确率。

S24，利用softmax子模型，基于提取到的上下文信息进行语义分类，得到第二词集合。

S25，将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算。

S26，基于各第二词集合与预设领域词语本体的相关度，确定文本主题的分类。

综上，获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；将第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过ERNIE-BiGRU模型对第一词集合中的各词语进行语义分类得到第二词集合；基于预测的语义确定各词语之间的内在联系，并基于内在联系构建词语序列；基于词语序列提取文本主题的特征，并基于提取到的特征对文本分类。该方法中增加了ERNIE-BiGRU模型对文本主题的向量化，具体该门票性是在BERT模型的基础上,对BERT预训练时的逻辑进行了改进,同时预训练的数据大量采用了数据集,因此更加符合使用需求。另外,为了进一步提取文本主题上下文的信息,我们在ERNIE模型的基础上加入了双向门限循环单元(Bidirectional Gated Recurrent Unit，BiGRU)，将ERNIE模型训练后的词向量作为BiGRU的输入进行进一步的特征提取,以得到更好的文本分类结果。

为解决上述技术问题，本发明实施例还提供一种文本主题分类装置。

具体请参阅图8，图8为本实施文本主题分类装置的基本结构框图，包括：

获取模块，用于获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；

预测模块，用于将第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过ERNIE-BiGRU模型对第一词集合中的各词语进行语义分类得到第二词集合；

分类模块，用于基于各第二词集合与预设领域词语本体的相关度，确定文本主题的分类。

可选的，获取模块包括：

去燥单元，用于采集网页或者用户输入的文本主题，并基于语境中词语、句子之间的无意义连接字符查询文本主题中的噪音字符和停用词，得到语句短文本；

标记单元，用于将语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测有向无环图中词语的分割节点，并进行标记，得到分词序列；

替换单元，用于识别分词序列中的英文和网络用语，查询网络词典中英文和网络用语对应的含义，并替换，得到第一词集合。

可选的，标记单元具体用于：

将语句短文本中的待拆分句子与词典中的字或词进行匹配，生成的前缀树；

根据前缀树中各字或词，按照不同的组词长度生成一个有向无环图；

利用提前训练好的隐性马尔科夫转移概率矩阵、观测概率矩阵，使用Viterbi算法找到概率最大的子路径，并记录下概率的最大子路径在有向无环图中的起始节点和结束节点位置；

基于起始节点和结束节点位置作为分割位置，对待拆分句子重新组合标记，得到分词序列。

可选的，预先训练好的ERNIE-BiGRU模型由ERNIE预训练子模型、BiGRU子模型和softmax子模型组成，预测模块包括：

预训练单元，用于将第一词集合输入至ERNIE预训练子模型，对第一词集合进行预训练,得到句子级的词向量表示序列；

提取单元，用于利用BiGRU子模型提取词向量表示序列中各词语的上下文信息；以及利用softmax子模型，基于提取到的上下文信息进行语义分类，得到各词语的语义特征。

可选的，ERNIE预训练子模型ERNIE预训练子模型为transformer编码和知识整合两个部分组成的网络，预训练单元具体用于：

可选的，BiGRU子模型为双向门限循环单元，提取单元具体用于：

利用双向门限循环单元，分别从正向和逆向方向上预测词向量表示序列中各词语在文本主题中的前后联系；

本实施例，通过获取待分类的文本主题，并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合；将第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过ERNIE-BiGRU模型对第一词集合中的各词语进行语义分类得到第二词集合；基于预测的语义确定各词语之间的内在联系，并基于内在联系构建词语序列；基于词语序列提取文本主题的特征，并基于提取到的特征对文本分类。通过ERNIE-BiGRU模型对文本主题转换成句子级的向量表示，不仅保留句子中词与词之间的内在联系和完整性，还解决了现有的预训练模型中句子级的文本分类不准确的问题。

为解决上述技术问题，本发明实施例还提供一种芯片，该芯片可以为通用处理器，也可以为专用处理器。该芯片包括处理器，处理器用于支持终端执行上述相关步骤，例如从存储器中调用并运行计算机程序，使得安装有芯片的设备执行，以实现上述各个实施例中的文本主题分类方法。

可选的在一些示例下，该芯片还包括收发器，收发器用于接收处理器的控制，用于支持终端执行上述相关步骤，以实现上述各个实施例中的文本主题分类方法。

可选的，该芯片还可以包括存储介质。

需要说明的是，该芯片可以使用下述电路或者器件来实现：一个或多个现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑器件(programmablelogicdevice，PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

本发明还提供一种终端，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上实施例提供的文本主题分类方法的步骤。

具体请参阅图9，图9为示出的一种终端的基本结构框图，该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种文本主题分类方法。该终端的处理器用于提供计算和控制能力，支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种文本主题分类方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal DigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile InternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例文本主题分类方法的步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述介绍的文本主题分类方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文本主题分类方法，其特征在于，包括：

2.如权利要求1所述的文本主题分类方法，其特征在于，所述获取待分类的文本主题，并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理，得到第一词集合，包括：

3.如权利要求2所述的文本主题分类方法，其特征在于，所述将所述语句短文本转换为有向无环图，并利用隐性马尔科夫模型预测所述有向无环图中词语的分割节点，并进行标记，得到分词序列，包括：

4.如权利要求1-3中任意一项所述的文本主题分类方法，其特征在于，所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算，包括：

5.如权利要求4所述的文本主题分类方法，其特征在于，所述将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算，之后还包括：

6.如权利要求1-3中任意一项所述的文本主题分类方法，其特征在于，预先训练好的ERNIE-BiGRU模型由ERNIE预训练子模型、BiGRU子模型和softmax子模型组成，所述将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中，通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合，包括：

7.如权利要求6所述的文本主题分类方法，其特征在于，所述ERNIE预训练子模型所述ERNIE预训练子模型为transformer编码和知识整合两个部分组成的网络；

所述将所述第一词集合输入至所述ERNIE预训练子模型，对所述第一词集合进行预训练,得到句子级的词向量表示序列，包括：

8.一种文本主题分类装置，其特征在于，包括：

9.一种芯片，其特征在于，包括：第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如权利要求1至7任一项所述的文本主题分类方法的步骤。

10.一种终端，其特征在于，包括第二存储器、第二处理器以及存储在所述第二存储器中并在所述第二处理器上运行的计算机程序，其特征在于，所述第二处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本主题分类方法的步骤。