CN112380350B

CN112380350B - 一种文本分类方法和装置

Info

Publication number: CN112380350B
Application number: CN202110046183.0A
Authority: CN
Inventors: 于游; 姜巍; 张珊珊; 赵永强
Original assignee: Beijing Yuxueyuan Health Management Center Co ltd
Current assignee: Beijing Yuxueyuan Health Management Center Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-07
Anticipated expiration: 2041-01-14
Also published as: CN112380350A

Abstract

本发明实施例提供一种文本分类方法和装置，本发明通过确定待分类的文本中的多个基本关键词，并确定用于表示基本关键词的在所述文本中的重要程度；当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，对所述标签关键词的基本权重加权，以增加该标签关键词的权重，与此同时，还基于预设的词向量模型确定与所述标签关键词关联的相关关键词，防止遗漏低频关键词；最终根据所述标签分类关键词表中关键词与分类结果的对应关系，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，综合确定出文本的分类结果，以提高分类结果的准确度。

Description

一种文本分类方法和装置

技术领域

本发明属于互联网技术领域，尤其涉及一种文本分类方法和装置。

背景技术

随着互联网技术的不断发展，越来越多的人通过网络获取有用的信息。伴随着多样化的应用的普及，以及各种母婴社交应用所具有的典型的4A特点，随之而来的是不断膨胀的母婴信息。信息量的极大增加，使得高效的从网络信息中提取有用信息成为了人们的迫切需要。然而文本关键词的抽取，以及文本的自动分类技术作为广泛应用的两个技术，在网络不断扩容的情况下，对于快速高效检索母婴问题，以及有效组织资源带来极大的帮助。

在实际应用中，文本的关键词是表达文档主题概念的词汇，一个好的关键词，既要有专指性又要准确的反应文本的主旨思想，也能够表示文本的类别，而现有技术多是依赖于人工的主观思维的提取关键词，然后对文本进行分类，不仅分类效率低下，且难以保障分类结果的准确性。

发明内容

为了解决上述现有技术中依赖于人工的主观思维的提取关键词，然后对文本进行分类，不仅分类效率低下，且难以保障分类结果的准确性的技术问题，本发明提供了一种文本分类方法和装置。

第一方面，本发明提供了一种文本分类方法，所述方法包括：

确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重，其中所述基本权重用于表示基本关键词在所述文本中的重要程度；

在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，并对所述标签关键词的基本权重加权；

基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值；

根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系。

可选地，确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤，包括：

对所述文本进行预处理得到多个参考词汇；

计算所述多个参考词汇中各参考词汇对应的词频；

将所述词频大于预设阈值的参考词汇设为基本关键词；

计算所述基本关键词的逆文本频率；

根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。

可选地，还包括：

将不位于所述标签分类关键词表中的关键词的基本权重，确定为所述关键词对应的权重值，以保留不位于所述标签分类关键词表中的关键词的权重信息。

可选地，基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值的步骤，包括：

基于预设的词向量模型确定与所述标签关键词相关的多个参考词；

在所述多个参考词中确定位于所述文本中的参考词为相关关键词；

计算与所述相关关键词对应的权重值。

可选地，所述词向量模型的训练过程，包括：

获取多个训练词汇以及各训练词汇对应的词频；

依据词频从高到低的顺序选取前v个训练词汇构建训练样本；

利用所述训练样本训练所述词向量模型直至收敛，以使所述词向量模型中存在有v个向量维度，其中，输入所述词向量模型的词汇与v个向量维度中某个维度越接近，表示相关度越大。

可选地，根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果的步骤，包括：

创建包含有所述基本关键词、标签关键词以及相关关键词的关键词集合，并剔除所述关键词集合中权重值小于预设阈值的关键词；

根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果。

可选地，根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果的步骤，包括：

若所述关键词集合中的目标关键词位于所述标签分类关键词表中，则获取与所述目标关键词对应的分类等级以及参考分类结果；

针对于每个所述目标关键词，根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率；

将概率最高的参考分类结果确定为所述文本的分类结果。

可选地，根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下：

P(classify)＝Weight(x)*(10-level)/10

其中，p(classify)表示分类结果的概率，Weight(x)表示所述关键词的权重值，level表示所述分类等级。

可选地，将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前，还包括：

若存在至少两个相同的参考分类结果，则针对相同的参考分类结果对应的概率进行合并，得到相同的参考分类结果的最终概率值。

第二方面，本发明提供了一种文本分类装置，采用文本分类方法实施处理文本分类，其中文本分类装置包括：

第一确定模块，用于确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重，其中所述基本权重用于表示基本关键词在所述文本中的重要程度；

第二确定模块，用于在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，并对所述标签关键词的基本权重加权；

第三确定模块，用于基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值；

第四确定模块，用于根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：本发明通过确定待分类的文本中的多个基本关键词，并确定用于表示基本关键词在所述文本中的重要程度；当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，对所述标签关键词的基本权重加权，以增加该标签关键词的权重，与此同时，还基于预设的词向量模型确定与所述标签关键词关联的相关关键词，防止遗漏低频关键词；最终根据所述标签分类关键词表中关键词与分类结果的对应关系，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，综合确定出文本的分类结果，以提高分类结果的准确度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种文本分类方法步骤流程图；

图2是本发明实施例的图1中步骤S101的流程图；

图3是本发明实施例的词向量模型的训练过程的流程图；

图4是本发明实施例的图1中步骤S103的流程图；

图5是本发明实施例的图1中步骤S104的流程图；

图6是本发明实施例的图5中步骤S502的流程图；

图7是本发明实施例的一种文本分类装置模块示意图；

图8是本发明实施例的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

在实际应用中，文本的关键词是表达文档主题概念的词汇，一个好的关键词，既要有专指性又要准确的反应文本的主旨思想。

发明人在研究过程中发现，现有技术中的自动获取关键词的方法，大体可以概括为三类：现有技术1(基于统计信息的抽取方法)，现有技术2(基于机器学习的抽取方法)以及现有技术3：(基于浅层语义分析的方法)。

具体而言，现有技术1中的基于统计信息的方法，是统计文本的各种特征，以实现关键词的获取，该方法具有通用性强的特点，但是往往有准确率低的缺点；现有技术2的基于机器学习的抽取方法，常见应用方法例如：SVM支持向量机的方法、最大熵模型等方法，但是这些方法往往需要大量的已经标注好关键词的语料作为训练文本，才能训练出机器学习的模型，然而标注训练语料恰恰是中文文本处理领域所匮乏的，需要投入大量的人力获取；现有技术3涉及一种基于浅层语义分析的方法，克服传统方法局限于字面匹配、缺乏语义理解的缺点，将词语语义特征融入关键词提取过程中，此种方法更符合人们的感知逻辑，具有较好的发展，但是涉及到词汇之间更复杂的逻辑关系时，无法准确的提取出能够代表文本的关键词，基于此，本发明提供了一种文本分类方法，如图1所示，所述方法包括：

步骤S101，确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重；

在该步骤中，初步确定待分类的文本中基本关键词的方式可以根据实际情况而定，例如基于预设的语料库使用TFIDF(Term Frequency-Inverse Document Frequency，词频-逆文件频率)方法获得文本中基本关键词，以及计算各基本关键词对应的基本权重，其中所述基本权重用于表示基本关键词在所述文本中的重要程度。

进一步地，如图2所示，步骤S101，确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤，包括：

步骤S201，对所述文本进行预处理得到多个参考词汇；

在该步骤中，预处理的方式包括但不仅限于去停用词，添加用户词典进行分词等操作。

步骤S202，计算所述多个参考词汇中个参考词汇对应的词频；

在该步骤中，词频统计的方式就是对文本进行分词，然后对每个词在语料中出现的次数进行统计。

步骤S203，将所述词频大于预设阈值的参考词汇设为基本关键词；

在该步骤中，预设阈值可以根据实际情况而定，并将出现频率高的参考词汇设置为基本关键词，并进一步在其中筛选出能够表示文本主题的词。

步骤S204，计算所述基本关键词的逆文本频率；

在该步骤中，采用TFIDF方法获得各基本关键词的逆文本频率(IDF)。

步骤S205，根据所述基本关键词的词频和逆文本频率计算所述关键词的基本权重。

在该步骤中，如果用M代表语料库中的文本总数，L代表语料库中包含当前词的文本总数,当前词在待分类文本中的词频为N，待分类文本的总词数为T，则此关键词的IDF为：

则基本关键词的权重值Weight为：Weight＝(N/T)*IDF；例如：针对于待分类文本“宝宝在洗澡时，是清理耳垢的最佳时间，所以宝妈们控制好水温，不要错过每次的洗澡时间哦”本发明的语料库的文本总数M＝14万，包含“洗澡”词语的文本数为10000(即语料库中包含当前词的文本总数)，且其在待分类文本中出现的词频为2(即N＝2)；待分类文本的总词数为：18(即T＝18)，则关键词“洗澡”的

对应的权重值Weight＝(2/18)*2.14＝0.23。

步骤S102，在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，并对所述标签关键词的基本权重加权；

在该步骤中，预设的标签分类关键词表中包含有多个标签关键词，在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词的目的在于，当在文本中发现有与该文本对应类别的标签分类关键词表中的标签关键词时，这个标签关键词有很大概率可以用于表示该文本的类别。

具体地，所述标签分类关键词表的类别可以根据实际情况而定，例如面向母婴领域的标签分类关键词表中的关键词进行加权，是因为此部分是由专业人员总结的特定领域的专业词汇，在一定程度上，可以避免专业领域的特殊词汇被忽略，较好的提高了抽取关键词的准确性。如待分类文本中的基本关键词“洗澡”在面向母婴领域的标签分类关键词表中，则“洗澡”被称作标签关键词，其基本权重值为0.23，在对其基本权重按照Weight＝Weight(x)+1进行加权，则标签关键词“洗澡”的权重Weight＝0.23+1＝1.23。

另外，在本发明实施例中将不位于所述标签分类关键词表中的关键词的基本权重，确定为所述关键词对应的权重值，以保留不位于所述标签分类关键词表中的关键词的权重信息。

例如：“耳垢”不在标签分类关键词表中，假如其在步骤1中的待分类文本中对应的基本权重Weight＝0.1；则经过此步骤，“耳垢”的权重仍然为0.1，且依然在基本关键词集合中。

步骤S103，基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值；

在该步骤中，为了获取到文本中频次较少，但却是文本的主旨所在的关键词，基于大规模语料，得到词向量的相关模型，具体地，所述词向量模型的训练过程，如图3所示，包括：

步骤S301，获取多个训练词汇以及各训练词汇对应的词频；

在该步骤中，获取训练词汇的步骤可以参照上述实施例中，从文本中确定基本关键词的步骤，例如将每条文本去停用词之后，添加用户词典分词等预处理操作之后的结果作为训练相关模型的训练样本。

步骤S302，依据词频从高到低的顺序选取前v个训练词汇构建训练样本；

在该步骤中，对输入的所有文本生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表，即训练样本。

步骤S303，利用所述训练样本训练所述词向量模型直至收敛，以使所述词向量模型中存在有v个向量维度；

在该步骤中，输入所述词向量模型的词汇与v个向量维度中某个维度越接近，表示相关度越大。

在实际应用中，词向量模型可以结合word2vec，以及采用CBOW的方式实现词向量相关模型的训练，详细的步骤可以概括为：对输入的所有文本(14万条语料)生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表。每个词都存在一个one-hot向量，向量的维度是V，如果该词在词汇表中出现过，则向量中词汇表中对应的位置为1，其他位置全为0。如果词汇表中不出现，则向量为全0；针对于每条训练文本，对训练文本中的每个词都生成一个one-hot向量，并且注意保留每个词的原始位置，以确保不丢失上下文相关信息。确定词向量的维数N，以及窗口大小window，对每个词生成2*window个训练样本，(i-window,i)，(i-window+1,i)，...，(i+window-1,i)，(i+window,i)，以使模型能学习到上下文相关信息。确定batch_size，注意batch_size的大小必须是2*window的整数倍，这确保每个batch包含了一个词汇对应的所有样本采用层次Softmax的训练算法，并通过神经网络迭代训练一定次数，得到输入层到隐藏层的参数矩阵，矩阵中每一行的转置即是对应词的词向量。将以上训练完成获得的矩阵进行保存，即完成词向量模型的训练。

进一步地，如图4所示，步骤S103，基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值的步骤，包括：

步骤S401，基于预设的词向量模型确定与所述标签关键词相关的多个参考词；

在本发明实施例中，如果文本的主旨关键词在文本中出现的频次较少，通过以上的TFIDF方法获取的关键词集合，大概率不包含此主旨关键词，但是一定与文本中的某个领域关键词具有较强的相关性；所以，本发明采用找文本中存在的标签关键词有联系的相关关键词；并且如果这些相关关键词在文本中出现，则对应增加权重，以使该相关关键词成为文本主旨关键词的可能性增加。

步骤S402，在所述多个参考词中确定位于所述文本中的参考词为相关关键词；

在实际应用中，面向母婴信息领域，主要是根据母婴领域语料，获得特定领域的词向量模型，模型可以通过输入关键词，在语料中，找到跟输入关键词最相关的相关关键词集合；由于标签关键词是专业领域人员整理的词表，但是不能保证全面性，所以采用大规模语料得到相关词挖掘模型，再加上权威的标签关键词，获取与标签关键词最近的相关词，得到相关关键词集合，能够有效防止遗漏关键词的情况出现，进而可以保证分析结果的精确度。

步骤S403，计算与所述相关关键词对应的权重值。

在该步骤中，通过词向量模型，基于向量之间的距离，实现标签关键词的相关关键词和对应权重，按照一定的规则和权重的加权计算得到相关关键词及其权重。

具体地：词向量相关模型实质为一个矩阵；结合相关模型的矩阵获取标签关键词的词向量；针对于矩阵中的向量，通过向量之间的距离，获取与该标签关键词向量比较相近的词向量，作为相关关键词的向量，之后若通过标签分类关键词表中的标签关键词找到对应的词语，则对应词语作为相关关键词；而标签关键词向量与相关关键词向量之间的距离，作为相关关键词的基本权重值。

较佳地，从待分类文本中抽取的关键词，一定是在文本中出现的词语；如果抽取的关键词不在句子中出现，在一定程度上是不符合常理的；所以，本发明将是否在待分类文本中出现作为相关关键词的筛选条件。而关于相关关键词的权重，因其为标签关键词的相近词汇，与特定领域的专业词汇相似度比较高，所以需要对相关关键词的权重进行加权计算，以保证抽取关键词的准确性。

遍历以上获取的相关关键词集合，如果当前相关关键词在待分类文本中出现，则将其作为相关关键词，并且对其基本权重值进行加权计算，具体可以参照上述实施例，此处便不再赘述。

例如：通过相关模型，标签关键词“洗澡”的TopN(前N个)相关关键词集合为：[宝宝洗澡，洗头，淋浴，洗脚，换衣服，耳垢，洗脸，抚触，洗头发，泡澡]；对应的权重集合为[0.71，0.66，0.61，0.60，0.59，0.59，0.57，0.57，0.55,0.54]；而根据以上筛选规则，通过“洗澡”得到的相关关键词为“耳垢”，对应的基本权重为：0.59，经过加权之后的权重值Weight＝0.59+0.5＝1.09。

步骤S104，根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系。

在本发明实施例中，通过确定待分类的文本中的多个基本关键词，并确定用于表示基本关键词在所述文本中的重要程度；当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，对所述标签关键词的基本权重加权，以增加标签关键词的权重，与此同时，还基于预设的词向量模型确定与所述标签关键词关联的相关关键词，防止遗漏低频关键词；最终根据所述标签分类关键词表中关键词与分类结果的对应关系，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，综合确定出文本的分类结果，以提高分类结果的准确度。

进一步地，在本发明的又一实施例中，还提供了一种具体确定文本分类结果的实施方式，如图5所示，步骤S104，根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，包括：

步骤S501，创建包含有所述基本关键词、标签关键词以及相关关键词的关键词集合，并剔除所述关键词集合中权重值小于预设阈值的关键词；

在该步骤中，得的基本关键词集合，标签关键词集合，相关关键词集合以及各类关键词对应的权重，并将上述三个集合的并集作为所有关键词集合；依据关键词集合权重进行排序，获得TopN(前N个)作为待分类的文本的关键词，并且保留各关键词对应的权重信息，用于后续分类计算。

步骤S502，根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果。

在本发明实施例中，每个分类下有多个标签，一个标签也可能属于多个分类，分类本身是一个层次的关系。计算标签对分类的贡献度要考虑到标签命中在分类中的层级，并且要考虑标签本身针对分类句子本身的贡献度。

鉴于此种情况，本发明将通过计算待分类文本关键词映射到各个4级分类的概率值，以确定待分类文本所属的具体类别。如果当前所有关键词映射到某个分类的概率越大，则说明当前待分类文本属于此分类的可能性越大；反之，则属于此分类的可能性越小。

如图6所示，步骤S502，根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果，包括：

步骤S601，若所述关键词集合中的目标关键词位于所述标签分类关键词表中，则获取与所述目标关键词对应的分类等级以及参考分类结果；

步骤S602，针对于每个所述目标关键词，根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率；

具体地，步骤S602，根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下：

P(classify)＝Weight(x)*(10-level)/10

步骤S603，将概率最高的参考分类结果确定为所述文本的分类结果。

在实际应用中，具体计算关键词映射到某个类别的概率，可以用如下步骤：

遍历所有关键词集合W中的关键词，判断当前关键词是否在面向母婴领域的标签分类关键词表中，如果是，获取当前关键词所属分类等级level，如果level>＝4，获取当前关键词所属的4级分类为classify；如果level<4,则关键词所属的分类为对应级别的分类；如果否，则不参与待分类文本的类别确定。

在计算关键词映射到某个类别概率的过程中，发明人发现如果当前关键词的等级level越大，在标签分类关键词表中，其下的标签就会越少，则其属于当前类别的概率就会稍微降低；而关键词的权重值，体现了对于待分类文本的重要性，所以本发明的概率计算公式，充分考虑单个关键词的level和其权重值，具体的计算公式为：P(classify)＝Weight(x)*(10-level)/10。

但是，在极端情况下，所有关键词集合W中可能存在所属4级分类classify相同；鉴于此种情况，本发明对同一分类的概率值进行累加操作，即：如果多个关键词(W1，W2,…,W(n))所属4级分类结果相同，基于此，如图7所示，步骤S603，将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前，还包括：

若存在至少两个相同的参考分类结果，则针对相同的参考分类结果对应的概率进行合并，得到相同的参考分类结果的最终概率值；

在该步骤中，若存在多个关键词对应的参考分类结果相同，则需要获取多个关键词的权重值以及关键词对应的分类等级计算参考分类结果的最终概率具体地，本发明实施例对同一分类结果的概率值进行累加操作，即如果多个关键词(W1，W2,…,W(n))所属4级分类结果相同，则

其中level(x)为关键词W(x)对应的分类等级。

进一步地，在实际应用中，通过获取文本关键词集合对应的所有类别(Classify(1),Classify(2),…,Classify(n))，以及每个类别对应概率，根据概率大小进行排序，而其中最大概率值对应类别，即被认为当前待分类文本所属类别，确定分类结果，针对于实际应用，基于以上的待分类文本，假设获取的关键词集合为(洗澡，耳垢，水温，宝宝，清理)，其对应的权重为(1.23,1.09,1.01,0.97，0.82)，在标签分类关键词表中对应的分类等级为(4,5,5,0,0),其中参与待分类文本类别确定的关键词集合为(洗澡，耳垢，水温)，同时(洗澡，水温)同属于“洗澡”的4级分类，(耳垢)属于“掏耳朵”的4级分类；则根据以上的计算规则，得出待分类文本属于“洗澡”类别的概率为：p(洗澡)＝1.23*(10-4)/10+1.01*(10-5)/10＝1.243；属于“掏耳朵”类别的概率为：P(掏耳朵)＝1.09*(10-5)/10＝0.54，最终实现文本的分类。

本发明实施例不仅通过预先创建的标签分类关键词表，协助筛选出与文本相关度最高的主旨关键词，还采用基于统计TFIDF和词向量模型相结合的方法抽取文本相关关键词，防止主旨关键词的遗漏，实现对文本中关键词确定方式精确度的提升，并结合自主研发的概率推算公式，进一步确定文本分类结果，不仅能够客观的分析文本，还能够提升自动化计算的精确度。

如图8所示，在本发明提供的又一实施例中，本发明实施例还提供了一种文本分类装置，采用上述文本分类方法实施处理文本分类，其中文本分类装置包括：

第一确定模块01，用于确定待分类的文本中的多个基本关键词以及各基本关键词对应的基本权重，其中所述基本权重用于表示基本关键词在所述文本中的重要程度；

第二确定模块02，用于在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，并对所述标签关键词的基本权重加权；

第三确定模块03，用于基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值；

第四确定模块04，用于根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系。

在本发明的又一实施例中，还提供一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现方法实施例所述的文本分类方法。

本发明实施例提供的电子设备，处理器通过确定待分类的文本中的多个基本关键词，并确定用于表示基本关键词在所述文本中的重要程度；当在所述多个基本关键词中确定位于预设的标签分类关键词表中的标签关键词，对所述标签关键词的基本权重加权，以增加该标签关键词的权重，与此同时，还基于预设的词向量模型确定与所述标签关键词关联的相关关键词，防止遗漏低频关键词；最终根据所述标签分类关键词表中关键词与分类结果的对应关系，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，综合确定出文本的分类结果，以提高分类结果的准确度。上述电子设备提到的通信总线1140可以是串行外设接口总线(Serial Peripheral Interface，简称SPI)或者集成电路总线(Inter-IntegratedCircuit，简称ICC)等。该通信总线1140可以分为地址总线、数据总线、控制总线等。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系；

基于预设的词向量模型确定与所述标签关键词关联的相关关键词，并确定与所述相关关键词对应的权重值的步骤，包括：

计算与所述相关关键词对应的权重值。

2.根据权利要求1所述的文本分类方法，其特征在于，确定待分类的文本中的多个基本关键词以及各关键词对应的基本权重的步骤，包括：

对所述文本进行预处理得到多个参考词汇；

计算所述多个参考词汇中各参考词汇对应的词频；

将所述词频大于预设阈值的参考词汇设为基本关键词；

计算所述基本关键词的逆文本频率；

3.根据权利要求1所述的文本分类方法，其特征在于，还包括：

4.根据权利要求1所述的文本分类方法，其特征在于，所述词向量模型的训练过程，包括：

获取多个训练词汇以及各训练词汇对应的词频；

依据词频从高到低的顺序选取前v个训练词汇构建训练样本；

5.根据权利要求1所述的文本分类方法，其特征在于，根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果的步骤，包括：

6.根据权利要求5所述的文本分类方法，其特征在于，根据所述标签分类关键词表、所述关键词集合以及所述关键词集合中各关键词对应的权重确定所述文本的分类结果的步骤，包括：

将概率最高的参考分类结果确定为所述文本的分类结果。

7.根据权利要求6所述的文本分类方法，其特征在于，根据目标关键词的权重值和分类等级计算所述文本属于所述参考分类结果的概率的计算公式如下：

其中，p（classify）表示分类结果的概率，Weight（x）表示所述关键词的权重值，level表示所述分类等级。

8.根据权利要求6所述的文本分类方法，其特征在于，将概率最高的参考分类结果确定为所述文本的分类结果的步骤之前，还包括：

9.一种文本分类装置，其特征在于，采用如权利要求1-8任一项所述的文本分类方法实施处理文本分类，其中文本分类装置包括：

第四确定模块，用于根据所述标签分类关键词表，所述基本关键词、标签关键词、相关关键词以及各自对应的权重值，确定所述文本的分类结果，其中，所述标签分类关键词表中包括有关键词与分类结果的对应关系；

所述第三确定模块，具体用于基于预设的词向量模型确定与所述标签关键词相关的多个参考词；

计算与所述相关关键词对应的权重值。