CN111460147A

CN111460147A - 一种基于语义增强的标题短文本分类方法

Info

Publication number: CN111460147A
Application number: CN202010214338.2A
Authority: CN
Inventors: 周连科; 王诚; 张耘; 张英琪; 王红滨; 王念滨; 张毅; 赵昱杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-28
Anticipated expiration: 2040-03-24
Also published as: CN111460147B

Abstract

一种基于语义增强的标题短文本分类方法，它属于文本分类技术领域。本发明解决了现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题。本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后，将预处理后的文章内容作为样本数据的扩充语料，另外还通过特征检索的方式获得了标题短文本的扩充语料，并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新，即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强，通过语义增强技术对标题短文本进行分类，可以有效提高FastText分类器在短文本分类上的精确度，分类精度将有近30％的大幅度提升。本发明可以应用于短文本分类。

Description

一种基于语义增强的标题短文本分类方法

技术领域

本发明属于文本分类技术领域，具体涉及一种基于语义增强和FastText分类器的标题短文本分类方法。

背景技术

在移动互联网飞速发展的今天，互联网络每天会产生大量诸如新闻标题、微博和微信等短文本信息，而短文本信息的定义较为模糊，因此默认通常的短文本信息字数大约在200字左右。面对这些海量的短文本数据信息，为了能够对这些海量信息加以充分利用，从中挖掘出有价值的信息，有必要对短文本分类技术做近一步研究。短文本分类技术是NLP(Natural Language Processing，自然语言处理)领域的下游任务，也是其他NLP下游任务的根基；其主要应用在情感分析、舆情分析、新闻主题预测和垃圾邮件过滤等实际场景。同时也是意图识别、知识图谱及问答系统构建的基础。

充分利用短文本分类产生的数据价值，可以将其运用于军事情报领域，数据集为中文新闻情报数据，包括军事、政治、经济和文化4个大类。研究NLP自然语言处理领域的前沿成果，将理论与实际相结合，通过对收集到的海量情报数据进行分析，挖掘出有价值的数据信息，为意图识别，知识图谱及问答系统构建等其他NLP下游任务做数据支撑。因此对情报数据挖掘中的短文本进行分类，对于我国情报数据挖掘的发展具有积极意义和研究价值。由于情报数据挖掘中的标题短文本都存在着语义信息不足的通病，因此导致利用现有方法对情报数据挖掘中的标题短文本分类的精确度仍然较低。

发明内容

本发明的目的是为解决现有方法对情报数据挖掘中的标题短文本分类的精确度低的问题，而提出了一种基于语义增强的标题短文本分类方法。

本发明为解决上述技术问题采取的技术方案是：一种基于语义增强的标题短文本分类方法，该方法包括以下步骤：

步骤一、采集新闻标题短文本数据集M；

步骤二、分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理，获得预处理后的标题短文本以及标题短文本对应的文本内容；

将预处理后的标题短文本作为样本数据，将预处理后的文章内容作为扩充语料；

步骤三、分别为步骤一采集的每一条标题短文本进行特征检索，提取出每一条标题短文本对应的若干个关键词，将提取出的关键词作为对应标题短文本的扩充语料；

步骤四、将步骤二获得的样本数据分为训练集、验证集和测试集三部分；

步骤五、将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中，获得更新后的样本数据，完成对标题短文本数据的语义扩充，即获得语义扩充后的训练集、语义扩充后的验证集以及语义扩充后的测试集；

步骤六、利用语义扩充后的训练集对FastText分类器进行预训练，获得预训练好的FastText分类器后，利用语义扩充后的测试集对预训练好的FastText分类器进行测试，获得预训练好的FastText分类器在语义扩充后的测试集上的分类准确率；

再利用语义扩充后的验证集对预训练好的FastText分类器进行调参，以寻找FastText分类器的最优参数，实现对预训练好的FastText分类器的参数优化；并将在验证过程中被正确分类的优质数据集加入到语义扩充后的训练集中，获得更新后的训练集；

步骤七、利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练，获得训练好的FastText分类器；再利用语义扩充后测试集对训练好的FastText分类器进行测试，输出训练好的FastText分类器在测试集上的分类准确率；

步骤八、将训练好的FastText分类器用于新闻标题短文本的分类。

本发明的有益效果是：本发明提出了一种基于语义增强的标题短文本分类方法，本发明对采集的标题短文本以及标题短文本对应的文章内容进行预处理后，将预处理后的文章内容作为样本数据的扩充语料，另外还通过特征检索的方式获得了标题短文本的扩充语料，并且利用验证集对模型参数寻优时获得的优质数据集对训练集进行更新，即本发明对标题短文本进行了CSE编码语义增强和ASE自主语义增强，通过语义增强技术对标题短文本进行分类，可以有效提高FastText分类器在短文本分类上的精确度，分类精度将有近30％的大幅度提升。

附图说明

图1是本发明方法的流程图；

图2为本发明使用CSE技术中的文本内容语义增强效果图；

图3为本发明使用CSE技术中的特征检索语义增强效果图；

图4为本发明使用CSE技术进行语义增强效果图；

图4中使用CSE技术是指同时使用了CSE技术中的文本内容语义增强和CSE技术中的特征检索语义增强；

图5为本发明使用ASE技术进行语义增强效果图；

图6为本发明使用CSE和ASE技术进行语义增强效果图；

图中，FastTextCA代表使用了CSE和ASE技术。

具体实施方式

具体实施方式一：本实施方式所述的一种基于语义增强的标题短文本分类方法，该方法包括以下步骤：

步骤一、采集新闻标题短文本数据集M；

步骤一采集的数据集是基于搜狗实验室数据集和人工爬取的数据集；

步骤二、分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理，获得预处理后的标题短文本以及标题短文本对应的文章内容；

目前的短文本依然具有稀疏性和低频率的特征，稀疏的单词会让人难以计算共同出现的特征。低关键词的频率意味着共存计算结果可能不准确，它会导致语义偏见，无论是使用最简单的BOW模型还是更为复杂的词嵌入模型，通过丰富上下文语义信息是解决此类问题的唯一途径。为了克服了这个问题，本发明在FastText研究成果的基础上，结合当下流行的两种语义增强思想，考虑到数据的特点，提出了基于FastText分类器的短文本语义增强算法，具体流程为：对采集的新闻标题短文本以及新闻标题短文本对应的文章内容进行预处理，包括：数据清洗、格式调整、Jieba分词、去停用词和TF-IDF算法去除高频无用词等准备工作；对整理好的数据集进行预编码，包括：数学建模构建数学语言模型和将扩展语料库编码进短文本语义信息；训练模型，包括：对数据集合进行划分和充分利用模型调参的优质数据集对短文本语义信息进行编码。通过提出的CSE编码语义增强技术和ASE自主语义增强技术对标题短文本进行分类，可提高FastText分类器在短文本分类上的精确度。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤二中，分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行预处理，其具体为：

分别对采集的每一条标题短文本以及标题短文本对应的文章内容进行数据清洗、分词、去停用词以及去高频无用词处理。

本发明中进行分词处理时使用Jieba分词。由于扩展语料库拥有大量介词，标点符号和其他对分类无用的噪音，因此，需要使用停用词列表来过滤掉停用词，用TF-IDF算法过滤掉高频无用词，以完成扩展语料库的构建。其中停用词表的建立需要结合相关领域知识，和常规停用词表融合。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二中，将预处理后的文章内容作为扩充语料，其具体为：

其中，i表示标题短文本对应的标号，f函数是标题短文本与标号的映射函数，为一一映射关系，Head_i表示第i条标题短文本，Content(Head_i)表示第i条标题短文本对应的文章内容的预处理结果，L_Content表示对各标题短文本的文章内容进行预处理获得的扩充语料库，N为数据集M中标题短文本的总条数。

为扩充短文本语义信息，添加一些关键字是有必要的。这里对文章内容进行分词、去停用词处理；用处理后的文本内容作为短文本标题语义扩充的语料库，与基于LDA的扩展方法相比得出，本发明使用的是更为简单且可靠的方法。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述步骤三中，分别为步骤一采集的每一条标题短文本进行特征检索，提取出每一条标题短文本对应的若干个关键词，其具体过程为：

分别在百度搜索引擎中输入步骤一采集的每一条标题短文本，获得与每一条标题短文本对应的前5篇检索结果；

并根据前5篇检索结果中的每篇提取出13个关键词，即提取出与每一条标题短文本对应的65个关键词。

在搜索引擎的帮助下，本发明选取关键词检索的第一个片段收集信息以扩展语料库；实验表明，最佳效果是通过在原始标题中添加基于百度百科标题特征检索出的前5篇文章内容(每篇中特征提取13个关键词)作为语义扩充，并将其收集为用于训练分类器的附加输入语料库。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述步骤三中，将提取出的关键词作为对应标题短文本的扩充语料，其具体为：

其中，Search(Head_i)表示以采集的第i条标题短文本为输入进行检索，Max₅表示从检索结果中排在前5篇的文章内容中提取出关键词，Max₅(Search(Head_i))表示第i条标题短文本对应提取出的关键词，L_Search表示提取出的关键词组成的扩充语料库。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述步骤五中，将步骤二和步骤三获得的扩充语料编码到步骤二获得的样本数据向量空间中，获得更新后的样本数据，完成对标题短文本数据的语义扩充，其具体过程为：

其中，Head_i″为更新后的第i条样本数据，Head_i′为预处理后的第i条标题短文本，Head_i″由Head_i′、

和

三部分内容拼接，

运算符表示前后两部分内容的拼接；

函数定义为：

其中，

函数为L_Search语料库的哈希映射函数，

表示通过

函数从L_Search语料库中找到第i条标题短文本对应的内容，

表示L_Search语料库中第i条标题短文本的第k篇检索结果对应的关键词，k＝1,2,3,4,5；

函数定义为：

其中，

函数为L_Content语料库的哈希映射函数，

表示通过

函数从L_Content语料库中找到第i条标题短文本对应的内容，

表示L_Content语料库中第i条标题短文本对应的文章内容的预处理结果。

具体实施方式七：本实施方式与具体实施方式六不同的是：所述步骤六中，利用语义扩充后的训练集对FastText分类器进行预训练，直至达到设置的最大迭代次数Q时停止预训练，获得预训练好的FastText分类器；

所述步骤七中，利用步骤六获得的更新后训练集对参数优化后的FastText分类器进行训练，直至达到设置的最大迭代次数Q时停止训练，获得训练好的FastText分类器。

实施例

一种基于FastText分类器的短文本语义增强算法，通过以下步骤实现，并通过图1的流程框图直观的表示出来：

步骤一：采集短文本数据集，基于搜狗实验室数据集和人工爬取数据集；

步骤二：CSE短文本内容语义增强，标题短文本的特点是特征稀疏问题，特征共现的计算困难且不准确。本发明对文章内容进行数据清洗、分词、去停用词以及去高频无用词处理；用处理后的文本内容作为短文本标题语义扩充的语料库；

步骤三：CSE短文本特征检索语义增强，与一般长文本分类相比，本发明语料为中文短文本标题。本发明针对这些短文本特点，在搜索引擎的帮助下，选取关键词检索的第一个片段收集信息以扩展语料库；实验表明，最佳效果是通过在原始标题中添加基于百度百科标题特征检索出的前5篇文章内容(特征提取13个关键词)作为语义扩充，并将其收集为用于训练分类器的附加输入语料库；

步骤四：ASE短文本自主语义增强，把样本数据集按一定比例划分为训练集、验证集和测试集三部分。用验证集进行调参寻找最优模型过程中，可以挑选出优质数据集，作为训练集的扩充语料库，以达到优化模型效果的目的；

步骤五：预处理，在分类之前，应该对短文本进行预处理，例如数据清洗、分词和去停用词等操作。在本发明中，用Jieba分词。由于扩展语料库拥有大量介词，标点符号和其他对分类无用的噪音，因此，本文使用停用词列表来过滤掉停用词，用TF-IDF算法过滤掉高频无用词，以完成整个扩展语料库的构建，包括特征检索扩充语料库和文本内容扩充语料库两部分。其中停用词表的建立需要结合相关领域知识，和常规停用词表融合；

步骤六：预编码，本发明使用搜索引擎收集的语料库来编码单词嵌入；

步骤七：训练模型，通过以上步骤的准备工作，已完成了短文本扩充语料库的构建和语义增强的哈希映射编码，达到了将预先构建的文本内容扩充语料库和特征检索扩充语料库中的内容编码进短文本语义信息的目的。然后利用FastText分类器对处理好的数据进行模型的训练、验证和测试。

验证集是为了寻找最优模型参数，专门用于模型训练过程中的调参环节，如SVM中的参数c和核函数等。模型通过验证集的调参预测，记录下每一次实验中模型的准确率，当模型出现过拟合的征兆后，采取早停等手段可预防过拟合现象的发生。本发明可以充分利用每一次调参环节中的验证集，自动识别出分类正确的优质数据，构建扩充语料库，最终利用验证集构建的优质数据来增强编码短文本语义信息。验证集自主语义增强定义为：

其中,Head′_i表示经过预编码后的数据的短文本标题；

表示Head′_i对应的分类标签；Train函数表示以分类标签和数据对应的短文本标题为输入的训练模型过程；[·]₊函数表示用验证集调参优化模型过程中，当验证集出现误差增加现象，采取早停策略，停止迭代，防止过拟合。此时挑选出训练结果优质的数据集作为扩充数据集，这里的加号就代表分类正确的数据，对应的减号就代表分类错误的数据；

表示验证集的优质数据集合。L_Validation表示验证集，

和

分别表示优质数据集合和劣质数据集合。

实验数据使用的是收集到的数据集中的短文本标题，数据量为30w条记录。词向量维度设置为100维，通过扩展语料库用FastText训练更加精细的词向量表示。图2展示了CSE技术中的文本内容语义增强采用数据的文本内容作为标题的扩充语料，建立编码机制，分类精度将有近30％的大幅度提升。对检索到的前五篇片段信息，提取13个关键词编码增强原始的语义。图3展示了CSE技术中的特征检索语义增强用检索到的第一个片段信息的网页内容抽取最重要的13个关键词作为短文本标题的扩展语料库，并建立编码机制。这样的操作可以将模型精度提升至少2.4％。同时，本发明实验使用不同的损失函数来提升性能，从图3中可以看出，将损失函数从层次Softmax更改为负采样提升1％。因此后续改进实验的损失函数均采用负采样损失函数。利用关键词和预训练词嵌入增强表示。此外，将n-gram设置为2，将负采样参数设置为10，将CSE技术中的文本内容语义增强和特征检索语义增强进行集成。图4展示了FastText分类器在短文本分类上相对原分类器有了大幅度提升。将实验数据集划分为训练集、测试集和验证集三部分，比例分别为60％、20％和20％。在模型调参过程中，利用验证集中训练的优质数据来对短文本进行语义增强。图5展示了该方案可对模型精度有2％左右的提升。结合CSE编码语义增强技术和ASE自主语义增强技术，图6展示了集成CSE和ASE两项技术进行语义增强后的FastText相对原分类器做短文本分类有了大幅度提升。

总的来说，通过CSE语义增强中的文本内容扩充语料库和标题特征检索扩充语料库对短文本分类标题进行语义增强；同时通过ASE语义增强，充分利用模型调参的验证集数据中的优质数据集作为扩充语料库对短文本分类标题进行语义扩充，展示了CSE和ASE短文本语义增强技术二者的集成对FastText分类器在短文本分类任务上起到了良好的推进作用。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。