CN110502747A

CN110502747A - 一种主题分类方法和装置

Info

Publication number: CN110502747A
Application number: CN201910656595.9A
Authority: CN
Inventors: 王子夫; 魏越; 何慧
Original assignee: Beijing Yunhe Time And Space Technology Co Ltd
Current assignee: Zhengtian Technology Co.,Ltd.
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-26

Abstract

本发明实施例提供一种主题分类方法和装置，所述方法包括：对第一语料数据进行分词处理，得到第二语料数据；根据候选分词在第二语料数据的数目确定候选分词的权重值，并将权重值大于权重阈值的候选分词作为第二语料数据的关键词；根据权重值给第二语料数据中各语料子数据分配的目标关键词，并根据语料子数据及目标关键词生成第三语料数据；基于第三语料数据与预置词向量对主题分类模型训练；采用训练后的主题分类模型对目标文本分类。本发明实施例通过自动对语料数据关键词标注，减少了语料数据标注所需的人力投入和人为参与，从而降低了主题分类模型训练的人力投入的同时，避免了由于人为参与导致的误差，提高了主题分类模型的准确性。

Description

一种主题分类方法和装置

技术领域

本发明属于计算机应用技术领域，特别是涉及一种主题分类方法和装置。

背景技术

随着网络的日益普及，人们在网络中可以接触到大量的自然语言文本数据，比如电子邮件，然而这些爆炸式增长的数据想要通过人工阅读的方式来处理已经变的非常困难，在这种需求下，自然语言处理随之应运而生。

文本主题分类是自然语言处理中的一类基础任务，目的是为待分类文本贴上合适的标签，它具有非常广泛的应用，包括主题分类、情感分析、垃圾邮件检测等。传统文本主题分类主要是基于人工规则，主题分析等机制，及其学习技术逐渐成为实现文本主题分类任务的主流方式。

但现有的机器主题学习流程复杂，且其性能很大程度上取决于文本特征的好坏，这就需要投入大量的人力成本对文本特征进行改善，这种方式不仅成本过高，而且过多的人为参与降低的文本主题分类的准确性。

发明内容

有鉴于此，本发明提供一种主题分类方法和装置，用以在一定程度上解决现有技术中利用机器学习进行主题分类时成本过高且准确性低的问题。

依据本发明的第一方面，提供了一种主题分类方法，所述方法包括：

对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；

根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；

根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；

基于所述第三语料数据与预置词向量对主题分类模型进行训练；

采用训练后的主题分类模型对目标文本进行分类。

可选的，所述主题分类模型从上至下至少包括：

神经网络层，用于预测第三语料数据对应的关键词，得到预测关键词；

池化层，用于调整所述预测关键词的权重值；

全连接层，用于实现所述预测关键词之间的转换并将所述预测关键词传输至分类层；

分类层，用于根据所述预测关键词预测相对应的主题；

所述神经网络层与所述池化层之间、所述池化层与所述全连接层之间、所述全连接层与所述分类层之间还包括：

退出层，用于滤除上一层输出的预测信息中的无效数据；

激活层，用于提高上一层输出的预测信息的处理优先级。

可选的，所述基于所述第三语料数据与预置词向量对主题分类模型进行训练的步骤，包括：

将所述第三语料数据按照预设比例拆分成第一训练样本和第二训练样本；

利用预置词向量构建词向量多维空间模型；

将所述第一训练样本输入所述词向量多维空间中进行词语向量化处理，得到目标词向量；

根据所述目标词向量给所述第一训练样本分配相应的主题，以对主题分类模型进行训练；

将所述第二训练样本输入训练后的主题分类模型进行测试，得到测试数据，根据所述测试数据得到准确率；

若所述准确率小于准确率阈值，则调整所述神经网络层、池化层、全连接层、分类层、激活层的参数，以继续训练；

若所述准确率大于或等于准确率阈值，则结束训练。

可选的，所述基于所述第三语料数据与预置词向量对主题分类模型进行训练的步骤之前，所述主题分类模型通过如下步骤进行初次训练：

将第一语料数据进行分词处理，得到第二语料数据；

对所述第二语料数据中预设数量的数据进行预先标注相对应的样本关键词，将预先标注的数据作为样本语料数据；

基于所述样本语料样本与预置词向量对主题分类模型进行初步训练。

可选的，所述对第一语料数据进行分词处理，得到第二语料数据的步骤之后，还包括：

根据语料预处理规则对所述第二语料数据进行过滤，所述语料预处理规则包括：去停用词规则、去标点规则、去数字规则中的至少一项规则。

采用分布式集群基于所述第三语料数据与预置词向量对主题分类模型进行训练。

可选的，所述根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据的步骤，包括：

针对每个语料子数据，根据所述关键词在所述语料子数据中的数目以及所述关键词相对应的权重值，得到所述语料子数据中各关键词的综合权重；

针对每个语料子数据，将所述语料子数据中所述综合权重最大的关键词作为所述语料子数据相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

依据本发明的第二方面，提供了一种主题分类装置，所述装置包括：

分词模块，用于对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；

权重确定模块，用于根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；

分配模块，用于根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；

训练模块，用于基于所述第三语料数据与预置词向量对主题分类模型进行训练；

分类模块，用于采用训练后的主题分类模型对目标文本进行分类。

可选的，所述主题分类模型从上至下至少包括：

池化层，用于调整所述预测关键词的权重值；

分类层，用于根据所述预测关键词预测相对应的主题；

退出层，用于滤除上一层输出的预测信息中的无效数据；

激活层，用于提高上一层输出的预测信息的处理优先级。

可选的，所述训练模块，包括：

拆分子模块，用于将所述第三语料数据按照预设比例拆分成第一训练样本和第二训练样本；

构建子模块，用于利用预置词向量构建词向量多维空间模型；

处理子模块，用于将所述第一训练样本输入所述词向量多维空间中进行词语向量化处理，得到目标词向量；

训练子模块，用于根据所述目标词向量给所述第一训练样本分配相应的主题，以对主题分类模型进行训练；

测试子模块，用于将所述第二训练样本输入训练后的主题分类模型进行测试，得到测试数据，根据所述测试数据得到准确率；

第一判断子模块，用于若所述准确率小于准确率阈值，则调整所述神经网络层、池化层、全连接层、分类层、激活层的参数，以继续训练；

第二判断子模块，用于若所述准确率大于或等于准确率阈值，则结束训练。

可选的，所述训练模块之前，所述主题分类模型通过如下模块进行初次训练：

样本分词模块，用于将第一语料数据进行分词处理，得到第二语料数据；

样本标注模块，用于对所述第二语料数据中预设数量的数据进行预先标注相对应的样本关键词，将预先标注的数据作为样本语料数据。

初步训练模块，用于基于所述样本语料样本与预置词向量对主题分类模型进行初步训练。

可选的，所述分词模块之后，还包括：

过滤模块，用于根据语料预处理规则对所述第二语料数据进行过滤，所述语料预处理规则包括：去停用词规则、去标点规则、去数字规则中的至少一项规则。

可选的，所述训练模块，包括：

集群训练子模块，用于采用分布式集群基于所述第三语料数据与预置词向量对主题分类模型进行训练。

可选的，所述分配模块，包括：

第一分配子模块，用于针对每个语料子数据，根据所述关键词在所述语料子数据中的数目以及所述关键词相对应的权重值，得到所述语料子数据中各关键词的综合权重；

第二分配子模块，用于针对每个语料子数据，将所述语料子数据中所述综合权重最大的关键词作为所述语料子数据相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

针对在先技术，本发明具备如下优点：

本发明实施例提供一种主题分类方法和装置，所述方法包括：对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；基于所述第三语料数据与预置词向量对主题分类模型进行训练；采用训练后的主题分类模型对目标文本进行分类。本发明实施例通过自动对语料数据进行关键词标注，减少了语料数据标注所需的人力投入和人为参与，从而降低了主题分类模型训练的人力投入的同时，避免了由于人为参与导致的误差，提高了主题分类模型的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种主题分类方法的步骤流程图；

图2是本发明实施例提供的一种DAG有向无环图；

图3是本发明实施例提供的关键词在不同中文词向量空间的相似度对比示意图；

图4是本发明实施例提供的另一种主题分类方法的步骤流程图；

图5是本发明实施例提供的另一种主题分类方法中主题分类模型的结构示意图；

图6是本发明实施例提供的另一种主题分类方法中分词处理方法的步骤流程图；

图7是本发明实施例提供的另一种主题分类方法中主题分类模型训练方法的步骤流程图；

图8是本发明实施例提供的一种主题分类装置的结构框图；

图9是本发明实施例提供的另一种主题分类装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种主题分类方法的步骤流程图，所述方法可以包括：

步骤101，对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成。

在本发明实施例中，所述第一语料数据可以是含有文字信息的邮件、对话记录等文本信息。文本信息的内容多种多样，一般内容繁杂，若直接对整条文本信息输入主题分类模型进行训练，所得到的模型会产生较大的误差，所以在进行主题分类模型进行深度学习之前，需要对文本信息进行分词处理，所述分词处理是将第一语料数据中的每一条文本信息差分成若干短语和词组，得到由候选分词组成的多个语料子数据，所述多个语料子数据组成了第二语料子数据。

在实际应用中，所述分词处理可以是“结巴中文分词”对文本信息进行差分。所述结巴中文分词有三种模式，第一种模式为精确模式，此模式可以将句子精准切开。第二种为全模式，此模式可以把所有可能形成的词语都扫描出来。第三种为搜索引擎模式，此模式在精确模式的基础上对长词再次切分。以“观音桥需要增加地铁站”为例，在精确模式下，文本信息被拆分成“观音桥、需要、增加、地铁站”；在全模式下，文本被拆分为“观音、观音桥、需要、增加、地铁、地铁站、铁站”；在搜索模式下，文本信息会被拆分为“观音、观音桥、需要、增加、地铁、铁站、地铁站”。本实施例主要进行自然语言文本分析，所以精确模式可以作为优先的选择。

所述分词处理基于词典树对文本信息的段落进行扫描，形成汉字所可能组成词语的DAG(Directed Acyclic Graph，有相无环图)，然后根据词语库中词频，权重，词语属性等规则来确认所分出词语的合理性。参照图2，以“观音桥需要增加地铁站”为例，这句话的每一个字将作为一个结点，根据每个点可以组合的词语生成DAG有相无环图。

得到由图2所示的相无环图之后使用DP(Dynamic Programming，动态规则)算法对最大概率路径进行求解。在途中的每个结点都是带有权重比例w1～wn的。利用公式(1)我们可以得到多条路径，每条路径的route值，具有不同节点进行组合。

route＝(w1，w2，w3，w4，…….,wn) (1)

最优路径便是使所有节点权重之和得到最大值，从而完成分词处理。按按照此种方式，“观音桥需要增加地铁站”将会被拆分成“观音桥，需要，增加，地铁站”。

步骤102，根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词。

所述权重值可以是根据所述候选分词在所述第二语料数据中的数目进行排序，并根据排列次序分配相对应的权重，例如：有300个候选分词，数目第一的权重为300，第二的为299，第三为298，以此类推。

在本发明实施例中，根据所述第二语料数据中各候选分词的数目确定最常出现的候选分词，并根据所述候选分词的数目给所述候选分词分配相对应的权重值，所述权重值是随数目成正比的。可以将权重值大于权重阈值的候选分词作为关键词，也可以将权重值前预设数量的候选分词作为关键词。

步骤103，根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

在本发明实施例中，根据所述语料子数据所包含的关键词及相对应的权重值，确定所述语料子数据与各关键词之间的关联性，并根据所述关联性将给所述语料子数据分配一一对应的目标关键词。所述关联关系可以是通过确定所述语料子数据中所包含的关键词，然后根据这些关键词在所述语料子数据中的数目乘以该关键词相对应的权重值，从而确定各关键词在所述语料子数据中的综合权重，并将综合权重最高的关键词最为语料子数据的目标关键词没从而确定所述语料子数据与各关键词之间的关联关系。例如:某一语料子数据中包含关键词A及关键词B，关键词A出现了3次，关键词B出现了2次，则根据所述关键词A对应的权重值1乘上出现的数目3得到A的综合权重3，关键词B对应的权重值2乘上出现的数据2，得到B的综合权重4，由于B的综合权重4大于A的综合权重3，因此该语料子数据对应的目标关键词确定为关键词B。

步骤104，基于所述第三语料数据与预置词向量对主题分类模型进行训练。

在本发明实施例中，所述预置词向量可以是预先标注的词向量和作为标准的中文词向量，所述预先标注的词向量可以使得后续训练的主题分类模型更加贴近操作人员的主题分类倾向。将文本信息词向量化的过程最重要的是找到合适的中文词向量文件，每个词在不同的中文词向量空间都有自己的维度属性。词向量空间中单词的位置是从该单词在文本中的上下文学习到的，词嵌入可以使用输入语料本身训练，也可以使用预先训练好的词嵌入模型生成，词嵌入模型有：Glove，FastText，Word2Vec。中文词向量使得每一个词语以数字矩阵的形式表达出来，从而使每一个句子到每一条邮件都能够以数字的方式量化出来。通过分析所出现数字的频率等特征进行统计，找出影响主题分类的关键词。中文词向量使得在自然语言能以计数的方式进行分析，更能够方便于运用数学公式。不同的中文词向量文件有着不同的大小，这意味着每个中文词向量的词语量。如微博中搜索“漏水”，会出现“漏水”，“不漏水”两个词。而在人民日报中同样搜索“漏水”，则会出现“漏水”，“不漏水”，“漏水口”三个词。

1、微博中文词向量

微博中文词向量文件有0.73G大小，包含850,000个词语，着重于中文微博客内容，因为更偏向于口头表达，所以有很多不规范的用词，这个更适用于拥有大量重复词语的分析，如“看”、“看看”、“看一看”。

2、知乎中文词向量

知乎中文词向量文件有2.1G大小，包含1,117,000个词语，着重于知识问答内容，口头表达与书面用语结合。

3、人民日报中文词向量

人民日报有3.9个G的内容，针对于政务新闻等内容，用词更加规范，更多书面语句。可以更多用到有大量关于语义的分析。语义代表着词语的对应关系比如，江苏-南京，唐朝-李世明。人民日报作为词嵌入非常适合去分析词语之间的对应关系。

4、综合中文词向量

综合中文词向量文件大小有22.6G，包含10,653,000个词语，包含百度百科、中文维基百科、人民日报、搜狗新闻、金融新闻、知乎问答、微博、以及文学作品的全部内容。综合中文词向量的准确率是最高的，通用于所有行业。

参照图3，经对比，为了更好地展示四组不同中文词向量的区别，我们对比范例文本信息中关键词：“漏水，渗水，检测，地下，水管，维修，破裂”在四组不同中文词向量中的向量值在三维空间中的位置。在特定中文词向量坐标系中，两个词语距离越近代表语义越相似。整体上来看，综合中文词向量和微博中文词向量中几个关键词聚集度非常高，而知乎中几个关键词聚集度最低。同时，我们进行了各中文词向量文件中的关键词的相似性对比，从整体上来讲，综合中文词向量同时对于语义和上下文的表达性高于其他三组中文词向量，因此本发明实施例优选综合中文词向量作为预置词向量。

根据所述预置词向量对应于的词语维度进行模型训练，分析各语料子数据中词语所述构成的多维空间然后进行归类，使用第三语料数据不断优化模型。可以基于神经网络算法读取预置词向量，然后根据预置词向量里的词语含义建立词向量多维空间模型，将具有相似含义的词语归纳整合到一起形成多维空间模型中的一个集合。第三语料数据中被拆分的词语和短句根据词向量多维空间模型与模型中所形成的集合进行一一对应，所述第三语料数据可能会对应多个集合，通过训练主题分类模型，将这些多个集合的关系归纳成一个主题，基于所述第三语料数据对所述主题分类模型进行训练之后，该模型将会学习到此主题应对应到哪些集合中，从而形成一个新的主题分类模型。通过利用包含有人工标注词向量及中文词向量的预置词向量作为该主题分类模型建立向量多维空间，然后引入自动生成的第三语料数据对该模型进行优化，在使得训练后的主题分类模型贴合用户自身分类需求的前提下，保证该主题分类模型又不会偏离标准词语含义，从而减轻了对语料数据进行标注的人工投入的同时，又能保证主题分类模型的准确性。

步骤105，采用训练后的主题分类模型对目标文本进行分类。

在本发明实施例中，首先通过将需要进行主题分类的目标文本进行分词处理，从而得到目标分词数据，然后将目标分词数据输入到训练后的主题分类模型进行主题分类，所述主题分类模型会将该给目标文本分配相对应的主题分类集合中，并输出相应的主题。

本发明实施例提供一种主题分类方法，所述方法包括：对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；基于所述第三语料数据与预置词向量对主题分类模型进行训练；采用训练后的主题分类模型对目标文本进行分类。本发明实施例通过自动对语料数据进行关键词标注，减少了语料数据标注所需的人力投入和人为参与，从而降低了主题分类模型训练的人力投入的同时，避免了由于人为参与导致的误差，提高了主题分类模型的准确性。

图4是本发明实施例提供的另一种主题分类方法的步骤流程图，所述方法可以包括：

步骤201，对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成。

该步骤可参照步骤101的详细描述，此处不再赘述。

步骤202，根据语料预处理规则对所述第二语料数据进行过滤，所述语料预处理规则包括：去停用词规则、去标点规则、去数字规则中的至少一项规则。

在本发明实施例中，在完成分词处理后，对所述第二语料数据进行去噪处理。例如文本信息中会出现如“吗，吧，你，我，谢谢”等重用语气词，名词，动词，这些词语统称为噪音。

所述停用词规则是指建立停用词库对所述第二语料数据进行过滤，以将停用词库中存在于第二语料数据中的分词滤除；所述标点规则是指对所述第二语料数据中的标点符号和后缀符号等进行过滤；所述去数字规则是指对所述第二语料数据中的数字进行滤除。

本发明实施例通过滤除第二语料数据中的噪音，减少了噪音对于模型训练的影响，提高了主题分类模型训练的准确率。

步骤203，根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词。

该步骤可参照步骤102的详细描述，此处不再赘述。

步骤204，针对每个语料子数据，根据所述关键词在所述语料子数据中的数目以及所述关键词相对应的权重值，得到所述语料子数据中各关键词的综合权重。

在本发明实施例中，当确定一定数量的关键词后，可以根据各语料子数据中不同关键词出现的次数与相对应的权重值的乘积，确定各语料子数据中每个关键词的综合权重。

当然，还可以将上述乘积进行进一步变换得到综合权重，例如，线性变换或指数变换，但保持乘积和综合权重的正向比例关系即可。

步骤205，针对每个语料子数据，将所述语料子数据中所述综合权重最大的关键词作为所述语料子数据相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

在本发明实施例中，可以将所述综合权重最大的关键词作为该语料子数据相对应的目标关键词，并将该语料子数据分配到所述目标关键词对应的类中去，以生成第三语料数据。

本发明实施例通过根据管筛选出的关键词给各语料子数据分配目标关键词，实现了主动对文本信息进行标注以得到第三语料数据，大幅度减少了对语料数据进行标注的人力资源投入的同时，减少了人为参与，避免了人为失误导致的误差，提高了训练主题分类模型的准确率。

步骤206，采用分布式集群基于所述第三语料数据与预置词向量对主题分类模型进行训练。

在本发明实施例中，Spark是一种快速的集群计算框架。它基于HadoopMapReduce(一种分布式海量数据处理的编程框架)扩展了MapReduce(一种编程模型，用于大规模数据集的并行运算)模型，Spark通过内存集群计算模型提高应用程序的处理速度。深度学习的计算强度较高，由于模型需要依赖规模庞大的多元数据集，因此计算速度很重要。弹性MapReduce等各类云端服务可以被用来运行和管理Spark集群，通过在Spark集群上训练神经网络，可以有效加快网络训练速度。Spark能够并行读取第二语料数据并快速地将这些数据写入内存。在内存中将数据自动拆分成若干分区模块后，所有模块同时进行数据预处理，建立深度学习模型与读取主题，各个分区模块完成各自任务后进行汇总得到最后结果。本发明实施例最大化利用了计算资源，极大提高了邮件主题分析的运行效率和处理规模。

本发明实施例中的数据分词处理也可以使用分布式Hadoop集群。理论上可无限扩展的Hadoop框架使本系统为大数据的支持提供良好的可扩展性，支持更大量的数据存储和提取，提升机器间数据传输的效率。Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合，。需要反复操作的次数越多，所需读取的数据量越大，受益越大。此特点良好的适配于本研究中大量反复的邮件数据预处理。通过使用Spark的高性能集群式并行计算集合Hadoop的高效存储，该框架为高速实时的信息监管提供了基础。

可选的，参照图5，所述步骤204中的主题分类模型从上至下至少可以包括：

神经网络层，用于预测第三语料数据对应的关键词，得到预测关键词。

池化层，用于调整所述预测关键词的权重值。

全连接层，用于实现所述预测关键词之间的转换并将所述预测关键词传输至分类层。

分类层，用于根据所述预测关键词预测相对应的主题。

退出层，用于滤除上一层输出的预测信息中的无效数据。

激活层，用于提高上一层输出的预测信息的处理优先级。

在本发明实施例中，深度学习的方法可以是基于卷积神经网络，在利用预置词向量做好特征建模后，第一层为神经网络层A1，用来提取文本中的重要特征，第二层为池化层A2，令提取出的重要特征在网络中传输更明显，不重要的特征隐藏，第三层为全连接层A3以减少特征转换的计算量并继续传输重要特征，第四层为分类层A4，用来做最终的主题分类。在层与层之间，本深度学习的架构设计了几个退出层A5和激活层A6，退出层A5用来随机选取并剔除信息以减少计算量，激活层A6用来将重要信息激活，并且在传输中使得重要信息处于先决位置，这些退出层和激活层用来减少模型的过度拟合问题。本发明实施例可以减少不必要的计算量，有效提高模型中深度学习的整体效率。

可选的，参照图6，所述步骤206之前，所述主题分类模型通过如下步骤进行初次训练：

步骤A1，将第一语料数据进行分词处理，得到第二语料数据。

步骤A2，对所述第二语料数据中预设数量的数据进行预先标注相对应的样本关键词，将预先标注的数据作为样本语料数据。

步骤A3，基于所述样本语料样本与预置词向量对主题分类模型进行初步训练。

在本发明实施例中，通过对已完成分词处理的第二语料数据中的部分数据进行预先标注相对应的样本关键词，以生成样本语料数据，然后根据预置词向量构建词向量多维空间模型，将所述样本语料数据输入至所述词向量多维空间模型中对所述样本关键词进行词语向量化，然后根据词语向量化得到的样本词向量对所述样本语料数据进行主题分类，以对该主题分类模型进行训练，可以使得该主题分类模型学习到操作人员的主体分类倾向，使得后续利用未进行预先标注的第二语料数据进行自动标注得到的第三预料数据训练的该主题分类模型可以贴近该操作人员的主体分类倾向。在实际应用中，对主题分类模型可以通过分布式集群进行初步训练，从而提高主题分类模型的生成的整体效率。

可选的，参照图7，所述步骤206，可以包括：

步骤2061，将所述第三语料数据按照预设比例拆分成第一训练样本和第二训练样。

在本发明实施例中，将所述第三预料数据按照预设比例进行拆分，得到用于训练的第一训练样本和用于测试的第二训练样本，所述第一训练样本的数据量大于所述第二训练样本，所述预设比例可以根据实际训练需求进行配置。

步骤2062，利用预置词向量构建词向量多维空间模型。

步骤2063，将所述第一训练样本输入所述词向量多维空间中进行词语向量化处理，得到目标词向量。

步骤2064，根据所述目标词向量给所述第一训练样本分配相应的主题，以对主题分类模型进行训练。

在本发明实施例中，基于神经网络算法读取预置词向量，然后根据预置词向量里的词语含义建立词向量多维空间模型，将具有相似含义的词语归纳整合到一起形成多维空间模型中的一个集合。第一训练样本中被拆分的词语和短句根据词向量多维空间模型与模型中所形成的集合进行一一对应，所述第一训练样本可能会对应多个集合，通过训练主题分类模型，将这些多个集合的关系归纳成一个主题，以对所述主题分类模型进行训练。

步骤2065，将所述第二训练样本输入训练后的主题分类模型进行测试，得到测试数据，根据所述测试数据得到准确率。

在本发明实施例中，通过将用于测试的第二训练样本输入至已通过第一训练样本训练后的主体分类模型得到测试结果，并根据所述测试结果与标准主体进行比对，以得到该主体分类模型的准确率。

步骤2066，若所述准确率小于准确率阈值，则调整所述神经网络层、池化层、全连接层、分类层、激活层的参数，以继续训练。

步骤2067，若所述准确率大于或等于准确率阈值，则结束训练。

在本发明实施例中，当测试得到的所述主题分类模型的准确率大于准确率阈值，则确认该主题分类模型已达到预期效果，则结束训练，若所述准确率小于准确率阈值，则调整所述主题分类模型中各层级的参数，也可以调整输入的第三语料数据对该主题分类模型继续进行训练，直至所述准确率大于或等于准确率阈值。如果需要对所述主题分类模型进一步进行优化训练，可以通过变更第一训练样本，利用质量更高的训练样本对主题分类模型继续进行训练，从而提高主题分类模型的准确率，直至主题分类模型符合准确率阈值。

步骤207，采用训练后的主题分类模型对目标文本进行分类。

该步骤可参照步骤105的详细描述，此处不再赘述。

图8示出本发明实施例提供的一种主题分类装置30，所述装置可以包括：

分词模块301，用于对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成。

权重确定模块302，用于根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词。

分配模块303，用于根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

训练模块304，用于基于所述第三语料数据与预置词向量对主题分类模型进行训练。

分类模块305，用于采用训练后的主题分类模型对目标文本进行分类。

本发明实施例提供一种主题分类装置，所述装置包括：分词模块，用于对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；权重确定模块，用于根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；分配模块，用于根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；训练模块，用于基于所述第三语料数据与预置词向量对主题分类模型进行训练；分类模块，用于采用训练后的主题分类模型对目标文本进行分类。本发明实施例通过自动对语料数据进行关键词标注，减少了语料数据标注所需的人力投入和人为参与，从而降低了主题分类模型训练的人力投入的同时，避免了由于人为参与导致的误差，提高了主题分类模型的准确性。

图9示出本发明实施例提供的另一种主题分类装置40，所述装置可以包括：

分词模块401，用于对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成。

可选的，所述分词模块401之后，还包括：

过滤模块402，用于根据语料预处理规则对所述第二语料数据进行过滤，所述语料预处理规则包括：去停用词规则、去标点规则、去数字规则中的至少一项规则。

权重确定模块403，用于根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词。

分配模块404，用于根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

可选的，所述分配模块404，包括：

第一分配子模块4041，用于针对每个语料子数据，根据所述关键词在所述语料子数据中的数目以及所述关键词相对应的权重值，得到所述语料子数据中各关键词的综合权重。

第二分配子模块4042，用于针对每个语料子数据，将所述语料子数据中所述综合权重最大的关键词作为所述语料子数据相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据。

可选的，主题分类模型通过如下模块进行初次训练：

样本分词模块405，用于将第一语料数据进行分词处理，得到第二语料数据。

样本标注模块406，用于对所述第二语料数据中预设数量的数据进行预先标注相对应的样本关键词，将预先标注的数据作为样本语料数据。

初步训练模块407，用于基于所述样本语料样本与预置词向量对主题分类模型进行初步训练。

训练模块408，用于基于所述第三语料数据与预置词向量对主题分类模型进行训练。

可选的，所述主题分类模型从上至下至少包括：

池化层，用于调整所述预测关键词的权重值。

分类层，用于根据所述预测关键词预测相对应的主题。

退出层，用于滤除上一层输出的预测信息中的无效数据。

激活层，用于提高上一层输出的预测信息的处理优先级。

可选的，所述训练模块408，包括：

拆分子模块4081，用于将所述第三语料数据按照预设比例拆分成第一训练样本和第二训练样本；

构建子模块4082，用于利用预置词向量构建词向量多维空间模型。

处理子模块4083，用于将所述第一训练样本输入所述词向量多维空间中进行词语向量化处理，得到目标词向量。

训练子模块4084，用于根据所述目标词向量给所述第一训练样本分配相应的主题，以对主题分类模型进行训练。

测试子模块4085，用于将所述第二训练样本输入训练后的主题分类模型进行测试，得到测试数据，根据所述测试数据得到准确率。

第一判断子模块4086，用于若所述准确率小于准确率阈值，则调整所述神经网络层、池化层、全连接层、分类层、激活层的参数，以继续训练。

第二判断子模块4087，用于若所述准确率大于或等于准确率阈值，则结束训练。

可选的，所述训练模块408，包括：

集群训练子模块4088，用于采用分布式集群基于所述第三语料数据与预置词向量对主题分类模型进行训练。

分类模块409，用于采用训练后的主题分类模型对目标文本进行分类。

本发明实施例还提供一种终端，包括处理器，存储器，存储在存储器上并可在处理上运行的计算机程序，该计算机程序被处理器执行时实现上述请求处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述请求处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，可以为只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的请求处理方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的请求处理方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种主题分类方法，其特征在于，所述方法包括：

采用训练后的主题分类模型对目标文本进行分类。

2.根据权利要求1所述的方法，其特征在于，所述主题分类模型从上至下至少包括：

池化层，用于调整所述预测关键词的权重值；

分类层，用于根据所述预测关键词预测相对应的主题；

退出层，用于滤除上一层输出的预测信息中的无效数据；

激活层，用于提高上一层输出的预测信息的处理优先级。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第三语料数据与预置词向量对主题分类模型进行训练的步骤，包括：

利用预置词向量构建词向量多维空间模型；

若所述准确率大于或等于准确率阈值，则结束训练。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第三语料数据与预置词向量对主题分类模型进行训练的步骤之前，所述主题分类模型通过如下步骤进行初次训练：

将第一语料数据进行分词处理，得到第二语料数据；

5.根据权利要求1所述的方法，其特征在于，所述对第一语料数据进行分词处理，得到第二语料数据的步骤之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第三语料数据与预置词向量对主题分类模型进行训练的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据的步骤，包括：

8.一种主题分类装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述主题分类模型从上至下至少包括：

池化层，用于调整所述预测关键词的权重值；

分类层，用于根据所述预测关键词预测相对应的主题；

退出层，用于滤除上一层输出的预测信息中的无效数据；

激活层，用于提高上一层输出的预测信息的处理优先级。

10.根据权利要求8所述的装置，其特征在于，所述训练模块，包括：