CN110609898A

CN110609898A - 一种面向不平衡文本数据的自分类方法

Info

Publication number: CN110609898A
Application number: CN201910800288.3A
Authority: CN
Inventors: 史晓雨; 尚明生; 罗梦珍; 白亚男
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-12-24
Anticipated expiration: 2039-08-19
Also published as: CN110609898B

Abstract

一种面向不平衡文本数据的自分类方法。本发明为一种不完备专利自动标引方法，属于大数据的人工智能分类领域。该方法包含以下步骤：S1：选择文本数据源；S2：采用词向量技术进行向量训练，生成词库；S3：对数据进行预处理；S4：结合词库，对实验集的文本特征进行提取，建立带有Focal Loss的Bi‑LTSM的平衡样本数据的特征模型；S5：结合平衡样本数据的特征模型，逐一对测试集的文本进行分类。本发明利用词向量技术建立词库，通过平衡样本数据的特征模型自动提取文本数据特征，能够从上下文理解文本，解决文本不平衡问题，更加准确的完成文本数据的自分类任务，有利于构建大数据的智能分析决策系统，有利于对资源的有效整合、深度分析和挖掘及应用模式创新研究。

Description

一种面向不平衡文本数据的自分类方法

技术领域

本发明涉及一种面向不平衡文本数据的自分类方法，属于大数据的人工智能分类领域，尤其适用于大规模的不平衡文本的分类处理。

背景技术

在大数据时代，对文本数据的有效收集、整理、挖掘分析和应用，可以为客户提供第一手的数据分析，为用户推送有效的咨询信息，对企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。因而，在互联网+发展的大趋势下，如何利用文本大数据的价值提升我国的社会服务工作和企业在产品研发方面的科技创新能力及战略决策效率，具有非常重要的社会效益和经济价值。

目前，对于文本数据的分类工作更多的还是依靠人工分类或者强约束策略式分类方法，所谓的策略式分类往往是领域专家依靠自身经验制定的关键词匹配规则，来对文本数据进行简单的分类。虽然这些方法都能够在一定程度上对文本数据达到分类的目的，但是人工分类方法效率低下，人力资源成本过高，而强策略式分类方法受限于领域专家的知识，虽然有一定的准确率保障，但查全率往往表现很不理想。

当前互联网中的各类文本数据在文本数量上参差不齐，差距较大，这样的不平衡会导致小样本数据特征被大样本数据特征淹没，进而被所采用的机器学习模型所忽略，导致分类模型无法对小样本类别进行准确的分类判断。已有的机器学习分类方法，如支持向量机(SVM)、随机森林、长短期记忆网络(LTSM)等分类器，虽然能够实现文本数据的自动分类，但其分类效率低下，还缺乏对不平衡数据的有效处理，因而结果不够准确。目前文本分类中的不平衡问题通常使用过采样和欠采样的方法，但是这两种方法对数据进行直接操作，使用不当会使得结果失去真实性。同时，现有的分类方法多将文本转化为单词组成的一维向量输入，这样的方式最为简便，但难免会丢失一些上下文的语句关系。

发明内容

有鉴于此，本发明提供一种面向不平衡文本数据的自分类方法，通过建立一个全新的二维文本分类模型，不仅能够针对不平衡文本数据自动提取文本数据句子特征，提高分类的准确率和查全率，更加准确的完成不平衡文本数据的自主分类任务。

为达到上述目的，本发明提供如下技术方案：

一种面向不平衡文本数据的自分类方法，包括如下步骤：

S1：选择文本数据源；

S2：采用词向量技术进行向量训练，生成词库；

S3：对数据进行预处理；

S4：结合词库，对实验集的文本特征进行提取，建立平衡样本数据的特征模型；

S5：结合平衡样本数据的特征模型，逐一对测试集的文本进行分类。

进一步，步骤S1根据所选取的数据源，将其分为实验集和测试集两部分，其中，实验集为已分类的文本数据，测试集为未分类文本数据。

进一步，步骤S2具体为：对S1所选的数据源所有的文本，采用Word2ver(word tovector)或GloVe(Global vectors for word representation)等NLP(natural languageprocess，自然语言处理)词向量技术，选择固定的词向量长度n来对每个单词或者单字进行词向量训练，生成词库，其中n为人为选取的正整数。

进一步，步骤S3具体为：首先，将文本数据中的无用字符、停用词和低频词剔除，保留其中能够代表单句结尾的“。”、“！”、“？”等句子符号；其次，采用NLTK(natural languagetool kit，自然语言处理工具包)库中的ISRI词干提取器等词干提取器对文本数据进行词干化，即将词语除去变化或衍生形式，转化为词干或原型形式的词标准化；然后，通过识别句子符号，将每个文本拆分为若干个句子，每个句子按顺序保留其中前n个英文单词或中文单字，对不足n个单词或中文单字的句子的缺失值进行随机补齐；最后，将每个句子的n个英文单词或中文单字对应事先训练好的词库，将文本句子转化为词向量的数值形式。

进一步，步骤S4具体为：根据用户需求，确定文本分类的类别，以词库的词向量作为输入建立平衡样本数据的特征模型；将实验集的文本数据按一定比例分成训练集和验证集，采用训练集对平衡样本数据的特征模型参数进行训练，并用验证集对模型进行评估。

更进一步，所述的平衡样本数据的特征模型以词库的词向量的数值形式作为输入由一个2D卷积神经网络(2D-CNN)串联一个双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成；所述的全连接层中的每个神经元使用能够平衡文本数据的损失函数；所述的损失函数为中心损失函数(Focal Loss)。

进一步，步骤S5具体为：将测试集文本数据经过S3的预处理后，结合平衡样本数据的特征模型，逐一对测试集的文本数据进行分类。

本发明的有益效果在于：本发明提供了一种面向不平衡文本数据的自分类方法，利用词向量技术建立词库，通过平衡样本数据的特征模型自动提取文本数据特征，能够从上下文理解文本，解决文本不平衡问题，更加准确的完成文本数据的自分类任务，并且在模型中创新的使用了二维卷积神经网络提取文本中的特征，不同于传统的一维单词输入，本发明使用句子结合单词的二维输入，能够从句子到单词理解整个文本，提高准确率。

附图说明

为了使本发明的目的、技术方案，本发明提供如下附图进行说明：

图1为一种面向不平衡文本数据的自分类方法流程图；

图2为本发明实施例1结构图；

图3为本发明实施例1的医药专利英文文本数据柱状图；

图4为本发明实施例1的中心损失函数示意图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例1：为了解决缺乏面向医药专利文本的特定知识发现和挖掘模型及方法等问题，某公司提供423996条已分类的医药专利英文文本，如图3所示，数据分布存在明显的不平衡性，现有的技术在处理该专利分类问题上都没有关注数据不平衡问题，针对不平衡专利文本数据分类问题，本实施例提供“一种面向不平衡医药类英文专利文本数据的自分类方法”，结合图2，该方法包含以下步骤：

步骤一：

将该公司提供423996条已分类的医药专利英文文本数据按照8∶2的比例作为实验集和测试集，其分类结果如图3所示，再按照8∶2的比例将实验集分为训练集和验证集，在这里我们并不对专利本身做太多完备性约束，只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。

步骤二：词库生成；

对步骤一所选的数据源所有的文本，采用GloVe(Global vectors for wordrepresentation)这种NLP(natural language process，自然语言处理)的词向量技术，选择词向量长度为15来对每个单词或者单字进行词向量训练，生成N个15维词向量构成的词库，其中N为专利文本数据中不同单词或者单字的数量。

步骤三：对数据进行预处理；

首先，将文本数据中的无用字符、停用词和低频词剔除，保留其中能够代表单句结尾的“。”、“！”、“？”等句子符号；

其次，根据NLP的词干提取技术，采用采用维度为300的ISRI词干提取器对数据进行词干化，得到词标准化后的数据集；

然后，通过识别句子符号，将每个文本拆分为若干个句子，每个句子按顺序保留其中前15个英文单词或中文单字，对不足15个单词的句子的缺失值进行随机补齐；

最后，将每个句子的15个英文单词对应事先训练好的词库，将文本句子转化为词向量的数值形式。

步骤四：对专利特征进行提取；

首先，按照用户需求，确定划分专利类别；如图3所示，已知，使用的医药专利数据集分为以下12类：NME(化合物)，NDT(药物衍生物)，MIP(医药中间体)，NCF(晶型)，NFP(制剂)，NCP(组合物)，NUS(用途)，NSP(制备方法)，NAM(诊断、分析与测定专利)，DDD(给药装置)，BTN(生物技术专利)，BLA(生物药)。

然后，结合步骤二生成的词向量作为输入建立平衡样本数据的特征模型，所述的平衡样本数据的特征模型为双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成；结合图3，所述的全连接层中的每个神经元后连接一个损失函数；所述的损失函数为中心损失函数(Focal Loss)；其中，本实施例中取中心损失函数的两个自选参数：可调的focusing参数λ＝2和权重因子α＝0.4。

最后，采用训练集对平衡样本数据的特征模型参数进行训练使得中心损失函数值最小，并用验证集对模型进行评估。

步骤五：将测试集专利经过步骤三的预处理后，结合平衡样本数据的特征模型，逐一对测试集的专利进行分类。

本实施例分别采用传统的支持向量机(SVM)和带传统的交叉熵损失函数的Bi-LSTM分类器对专利文本数据分类做对比实验。实验结果如表1所示，其中，评价该分类结果的标准为查准率(Precision)和查全率(Recall)，结合表2，有Precision＝TP/(TP+FP)，Precision＝TP/(TP+FN)。

表1本发明方法对医药专利文本的分类结果

表2分类结果判定说明表

由表1可见，本发明方法在查准率和查全率上在每一个分类上几乎都优于或接近于现有分类方法，平均值分别为98.6％和97.3％，效果较好。

实施例2：目前互联网上充斥着大量的新闻文本消息，但很多新闻没有进行有效的分类管理，浪费了大量读者的时间，而当前网络中的新闻由于关注热点的不一样存在严重的数据不平衡问题，针对用户的兴趣，给用户提供特定分类的新闻信息，本发明提供“一种面向不平衡新闻数据的自分类方法”，结合图1，包含以下步骤：

步骤一：

通过爬虫软件等工具，在互联网中获取已有分类的新闻信息，例如在百度新闻网站获取财经、体育等已分类的新闻文本信息。根据所选取的数据源，将其分为实验集和测试集两部分，其中，实验集为已分类的新闻文本数据，测试集可以为未分类新闻文本数据也可以为已分类的新闻文本数据。

步骤二：

对步骤一所选的数据源所有的新闻文本，分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)等NLP(natural language process，自然语言处理)的词向量技术，选择固定的词向量长度n来对每个单词或者单字进行词向量训练，生成词库，其中n为人为选取的正整数。

步骤三：

首先，将新闻文本数据中的无用字符、停用词和低频词剔除；然后，采用NLTK(natural language tool kit，自然语言处理工具包)库中的ISRI词干提取器等词干提取器对新闻文本数据进行词干化，即将词语除去变化或衍生形式，转化为词干或原型形式的词标准化；然后，通过识别句子符号，将每个文本拆分为若干个句子，每个句子按顺序保留其中前n个英文单词或中文单字，对不足n个单词或中文单字的句子的缺失值进行随机补齐；最后，将每个句子的n个英文单词或中文单字对应事先训练好的词库，将文本句子转化为词向量的数值形式。

步骤四：

根据用户需求，确定新闻文本分类的类别，分别以步骤二中的词库和步骤三的词向量数值形式作为输入建立由一个2D卷积神经网络(2D-CNN)串联一个双向的长短时记忆网络(Bi-LSTM)连接一个全连接层构成的平衡样本数据的特征模型；将实验集的新闻文本数据按一定比例分成训练集和验证集，采用训练集对平衡样本数据的特征模型参数进行训练，并用验证集对模型进行评估，选择效果较好的词库和平衡样本数据的特征模型。

步骤五：

将测试集专利经过步骤三的预处理后，结合效果最优的词库和平衡样本数据的特征模型，逐一对测试集的专利进行分类，并推送给用户感兴趣类型的新闻。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种面向不平衡文本数据的自分类方法，其特征在于，该方法包含以下步骤：

S1：选择文本数据源；

S2：采用词向量技术进行向量训练，生成词库；

S3：对数据进行预处理；

2.根据权利要求1所述的一种面向不平衡文本数据的自分类方法，其特征在于，所述的步骤S1根据所选取的数据源，将其分为实验集和测试集两部分，其中，实验集为已分类的文本数据，测试集为未分类文本数据。

3.根据权利要求1所述的一种面向不平衡文本数据的自分类方法，其特征在于，所述的步骤S2具体为：对S1所选的数据源所有的文本，采用自然语言处理的词向量技术，选择固定的词向量长度n来对每个英文单词或者中文单字进行词向量训练，生成词库，其中n为人为选取的正整数。

4.根据权利要求1所述的一种面向不平衡文本数据的自分类方法，其特征在于，所述的步骤S3具体为：首先，将文本数据中的无用字符、停用词和低频词剔除，保留其中能够代表单句结尾的“。”、“！”、“？”等句子符号；其次，采用词干提取器对文本数据进行词干化，即将词语除去变化或衍生形式，转化为词干或原型形式的词标准化；然后，通过识别句子符号，将每个文本拆分为若干个句子，每个句子按顺序保留其中前n个英文单词或中文单字，对不足n个单词或中文单字的句子的缺失值进行随机补齐；最后，将每个句子的n个英文单词或中文单字对应事先训练好的词库，将文本句子转化为词向量的数值形式。

5.根据权利要求1所述的一种面向不平衡文本数据的自分类方法，其特征在于，所述步骤S4具体为：根据用户需求，确定文本分类的类别，建立平衡样本数据的特征模型；将实验集的文本数据按一定比例分成训练集和验证集，采用训练集对平衡样本数据的特征模型参数进行训练，并用验证集对模型进行评估。

6.根据权利要求5所述的平衡样本数据的特征模型，其特征在于，所述的平衡样本数据的特征模型以词库的词向量的数值形式作为输入，由一个2D卷积神经网络串联一个双向的长短时记忆网络，最后再串联一个全连接层构成；所述的全连接层中的每个神经元使用能够平衡文本数据的损失函数；所述的损失函数为中心损失函数。

7.根据权利要求1所述的一种面向不平衡文本数据的自分类方法，其特征在于，所述步骤S5具体为：将测试集文本数据经过S3的预处理后，结合平衡样本数据的特征模型，逐一对测试集的文本数据进行分类。