CN113704469B

CN113704469B - 一种基于贝叶斯定理的短文本分类数据集矫正方法及系统

Info

Publication number: CN113704469B
Application number: CN202110949903.4A
Authority: CN
Inventors: 郭浩亮; 刘凯
Original assignee: Bairong Zhixin Beijing Credit Investigation Co Ltd
Current assignee: Bairong Zhixin Beijing Technology Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2022-04-15
Anticipated expiration: 2041-08-18
Also published as: CN113704469A

Abstract

本发明提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，其中，所述方法包括：获得待校正数据集；对待校正数据集的文本内容进行编码表示；获得多个样本类别的样本平滑参数；根据样本平滑参数，对编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合条件的各个样本数据进行修改。解决了现有技术没有充分挖掘已有标注的信息，标签标注结果仍然完全取决于人，大量依赖人工参与，并且难以直接应用标注不准确、不正确的互联网数据，在分类过程中存在数据标签准确性差、正确率低的技术问题。

Description

一种基于贝叶斯定理的短文本分类数据集矫正方法及系统

技术领域

本发明涉及数据挖掘相关技术领域，具体涉及一种基于贝叶斯定理的短文本分类数据集矫正方法及系统。

背景技术

随着互联网的发展，短文本数据急剧增加，短文本具有高维稀疏性的特点，数量庞大、更新速度快，短文本的分类利于文本信息挖掘、处理和组织文本数据。常见的短文本分类有根据其内容将分为新闻、娱乐、军事、体育等，或按照情感类型进行分类等。为了获取有标注的优质数据往往采集无标签的原始数据，再通过人工标注的方法获取高质量分类标签，并且为了解决人工标注成本高昂的问题，采用主动学习的方法，通过机器学习的方法获取到分类难度大的样本数据，将此类数据通过人工再次标注，然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练，逐步提升模型的分类能力。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术没有充分挖掘已有标注的信息，标签标注结果仍然完全取决于人，大量依赖人工参与，并且难以直接应用标注不准确、不正确的互联网数据，在分类过程中存在数据标签准确性差、正确率低的技术问题。

发明内容

本申请实施例通过提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，解决了现有技术中没有充分挖掘已有标注的信息，标签标注结果仍然完全取决于人，大量依赖人工参与，并且难以直接应用标注不准确、不正确的互联网数据，在分类过程中存在数据标签准确性差、正确率低的技术问题。达到了能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量，校正速度快，能够快速获取可用数据集，能够对无标签的样本进行预测，提高分类过程中数据标签准确性及正确率的技术效果。

鉴于上述问题，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统。

第一方面，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正方法，其中，所述方法包括：根据多个样本类别，获得待校正数据集；对所述待校正数据集的文本内容进行编码表示；获得所述多个样本类别的样本平滑参数；根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合所述预定标签修改条件的所述各个样本数据进行修改。

第二方面，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于根据多个样本类别，获得待校正数据集；第一编码单元，所述第一编码单元用于对所述待校正数据集的文本内容进行编码表示；第二获得单元，所述第二获得单元用于获得所述多个样本类别的样本平滑参数；第一处理单元，所述第一处理单元用于获得根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；第三获得单元，所述第三获得单元用于依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；第一设定单元，所述第一设定单元用于设定预定标签修改条件；第一修改单元，所述第一修改单元用于对符合所述预定标签修改条件的所述各个样本数据进行修改。

第三方面，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于根据多个样本类别，获得待校正数据集；对所述待校正数据集的文本内容进行编码表示；获得所述多个样本类别的样本平滑参数；根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合所述预定标签修改条件的所述各个样本数据进行修改的技术方案，本申请实施例通过提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，达到了能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量，校正速度快，能够快速获取可用数据集，能够对无标签的样本进行预测，提高分类过程中数据标签准确性及正确率的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正方法的流程示意图；

图2为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正方法的对所述待校正数据集的文本内容进行编码表示的流程示意图；

图3为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正方法的获得各个样本数据属于不同样本类别的对数似然的流程示意图；

图4为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正方法的对符合所述预定标签修改条件的所述各个样本数据进行修改的流程示意图；

图5为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正方法的对符合所述预定标签修改条件的所述各个样本数据进行修改之后获得最终矫正结果的流程示意图；

图6为本申请实施例一种基于贝叶斯定理的短文本分类数据集矫正系统的结构示意图；

图7为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第一编码单元12，第二获得单元13，第一处理单元14，第三获得单元15，第一设定单元16，第一修改单元17，电子设备300，存储器301，处理器302，通信接口303，总线架构304。

具体实施方式

本申请实施例通过提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，解决了现有技术没有充分挖掘已有标注的信息，标签标注结果仍然完全取决于人，大量依赖人工参与，并且难以直接应用标注不准确、不正确的互联网数据，在分类过程中存在数据标签准确性差、正确率低的技术问题。达到了能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量，校正速度快，能够快速获取可用数据集，能够对无标签的样本进行预测，提高分类过程中数据标签准确性及正确率的技术效果。

申请概述

随着互联网的发展，短文本数据急剧增加，短文本具有高维稀疏性的特点，数量庞大、更新速度快，短文本的分类利于文本信息挖掘、处理和组织文本数据。常见的短文本分类有根据其内容将分为新闻、娱乐、军事、体育等，或按照情感类型进行分类等。为了获取有标注的优质数据往往采集无标签的原始数据，再通过人工标注的方法获取高质量分类标签，并且为了解决人工标注成本高昂的问题，采用主动学习的方法，通过机器学习的方法获取到分类难度大的样本数据，将此类数据通过人工再次标注，然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练，逐步提升模型的分类能力。现有技术没有充分挖掘已有标注的信息，标签标注结果仍然完全取决于人，大量依赖人工参与，并且难以直接应用标注不准确、不正确的互联网数据，在分类过程中存在数据标签准确性差、正确率低的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正方法，其中，所述方法包括：根据多个样本类别，获得待校正数据集；对所述待校正数据集的文本内容进行编码表示；获得所述多个样本类别的样本平滑参数；根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合所述预定标签修改条件的所述各个样本数据进行修改。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正方法，其中，所述方法包括：

步骤S100：a.根据多个样本类别，获得待校正数据集；

具体而言，根据不同的分类需求对短文本进行分类，根据多个不同样本类别，获得所述待校正数据集。所述样本类别指不同样本具有的共同属性，即样本的数据标签，例如手机应用的学习教育类、博彩类及金融类等。所述待校正数据集包含有不准确、不正确的数据标签。举不受限制的一例，在对手机应用进行分类时，在手机应用商店平台获取应用名称，由于开发者随意打标签、应用商店更新维护不及时、分类条目不足等原因导致对手机应用分类不准确，此时采集分类使用的数据标签，获得待校正数据集。

步骤S200：b.对所述待校正数据集的文本内容进行编码表示；

具体而言，对所述待校正数据集的文本内容进行编码表示是指将所述待校正数据集的文本内容转换成机器能够理解和处理的语言，为后续对待校正数据集的文本内容处理奠定了基础。

进一步的，如图2所示，基于所述对所述待校正数据集的文本内容进行编码表示，步骤S200包括：

步骤S210：对所述待校正数据集的文本内容进行词粒度的分词；

步骤S220：使用one-hot编码方式对分词后的所述文本内容进行编码，将文本内容转换为向量表示。

具体而言，为了所述待校正数据集的文本内容进行编码表示，对所述待校正数据集的文本内容进行词粒度的分词，将能够切分的文本内容进行切分，分词可采用python库jieba对应用名称进行词粒度的中文分词，获取分词结果后，获取词典。进一步的，使用所述one-hot编码方式进行编码，将文本内容转换为向量表示，在使用one-hot编码时，剔除生僻字。例如文本中的英文单词，日文单词，之后的训练中不再考虑这些词汇。举不受限制的一例，在手机应用分类数据集校正时，对应用名称进行词粒度的分词，获取分词结果后，获取词典以及各个应用名称的one-hot表示，在生成词典的过程中，根据词频去除生僻单词。使用one-hot编码时，并去除生僻词，能够达到词典规模减少，训练和预测速度加快的效果，有助于模型的快速迭代，能够减少模型的过拟合，使得模型能够挖掘到真正起作用的规律，能够增强模型的解释性。

步骤S300：c.获得所述多个样本类别的样本平滑参数；

步骤S400：d.根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；

具体而言，对所述编码表示后的所述待校正数据集的词频进行统计，在对文本的处理过程中，由于文本词典总量大，而样本数量不足，往往会出现某个词在观测样本中没有出现过的问题，即文本词典中的某个词对应的概率为0，在进行连乘操作时，会导致整个样本的概率为0，即零概率问题。为了解决零概率问题，对所述编码表示后的所述待校正数据集的词频进行平滑处理。所述多个样本类别的样本平滑参数指多个样本类别进行平滑处理时所设定的一特定参数，根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理，达到避免零概率问题发生的效果。

进一步的，基于所述根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理，步骤S400包括：

步骤S410：获得可变值λ_k，其中，所述可变值λ_k为所述多个样本类别的总样本数除以常数C，其中，C为超参数；

步骤S420：基于所述可变值λ_k，对所述编码表示后的所述待校正数据集的词频进行统计，获得所述多个样本类别的样本平滑参数。

具体而言，所述平滑处理为在词频统计时，给每一个统计结果均加上所述可变值λ_k，λ_k的值为k类别下总样本数除以常数C，C为超参数，根据实际情况确定超参数C。所述编码表示后的所述待校正数据集的词频进行统计，统计结果经过平滑处理后，获得所述多个样本类别的样本平滑参数，所述样本平滑参数为可变值λ_k。当统计词频出现零概率问题时，最常用的平滑方法是拉普拉斯平滑，即统计单词频次时给概率为0的计数加定值1。但在本发明使用场景当中，各个类别样本并不均衡，如果简单的使用拉普拉斯平滑处理，模型将倾向于预测成样本数较少的类别，不利于样本标签的重新划分，在词频统计时加上所述可变值λ_k，能够更好的贴合短文本分类的场景，克服拉普拉斯平滑处理在本领域应用的缺点。

步骤S500：e.依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；

具体而言，所述贝叶斯定理，是概率统计学里的一个定理，主要是描述两个相互独立事件之间的概率关系，贝叶斯定理主要研究的内容如下，在正常情况下，已知一个事件A已经发生，在事件A发生的基础上，事件B会发生的概率表示为P(B|A)；同样的，在已知事件B已经发生，在事件B发生的基础上，事件A会发生的概率是P(A|B)，这两个概率之间有着明确的数学关系。其中，P(A)表示事件A发生的概率，其数值只与事件A本身有关系，与其他因素完全无关，所以常常被称为先验概率，而P(B|A)与事件A的概率有关，常被称为后验概率。依据贝叶斯定理，根据所述多个样本类别的样本平滑参数，获得各个样本数据属于不同样本类别的对数似然，似然指可能性，所述对数似然是指对似然结果取对数，不改变似然方程的解，获得各个样本数据属于不同样本类别的对数似然是指获得各个样品数据属于不同样本类别的可能性，达到了便于计算的效果。

进一步的，如图3所示，基于贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然，步骤S500包括：

步骤S510：依据所述贝叶斯定理，计算各个样本类别出现的先验概率，以及出现各个单词的条件概率；

步骤S520：根据所述多个样本类别的样本平滑参数、各个样本类别出现的先验概率，以及出现各个单词的条件概率，获得各个样本数据属于不同样本类别的对数似然。

具体而言，根据所述贝叶斯定理，计算各个样本类别出现的先验概率，计算出现各个单词的条件概率。所述各个样本类别出现的先验概率指来源于各个样本类别的不同类别的样本发生的概率。所述各个单词的条件概率指各个单词在各个样本类别事件发生的前提下，各个单词发生的概率。所述各个单词是指经过词粒度分词后，词典中的各个单词，通过所述多个样本类别的样本平滑参数对词频统计结果进行平滑处理、计算各个样本类别出现的先验概率，以及计算出现各个单词的条件概率，获得各个样本数据属于不同样本类别的对数似然。

步骤S600：e.设定预定标签修改条件；

步骤S700：f.对符合所述预定标签修改条件的所述各个样本数据进行修改。

具体而言，由于数据集本身存在不准确、不正确的问题，通过设定预定标签修改条件，对符合条件的所述各个样本数据进行修改。所述预定标签修改条件根据各个样本数据属于不同样本类别的最大对数似然值和次大对数似然值之差进行设定，进一步的，对所述各个样本数据进行修改，提高了分类过程中的准确性和正确率。

进一步的，如图4所示，基于所述对符合所述预定标签修改条件的所述各个样本数据进行修改，步骤S700包括：

步骤S710：对所述各个样本数据属于不同样本类别的对数似然进行排序，获得最大似然值和次大似然值；

步骤S720：获得预定阈值；

步骤S730：判断所述最大似然值和次大似然值之差是否超过所述预定阈值；

步骤S740：如果所述最大似然值和次大似然值之差超过所述预定阈值，对对应的样本数据进行修改。

具体而言，为了对符合所述预定标签修改条件的所述各个样本数据进行修改，对所述各个样本数据属于不同样本类别的对数似然由大到小进行排序，获得最大似然值和次大似然值，进一步的，获得所述预定阈值，所述预定阈值为一超参数，根据实际情况确定，将所述最大似然值和次大似然值做差，判断所述最大似然值和次大似然值之差是否超过所述预定阈值，如果超过所述预定阈值，对对应的样本数据进行修改。若超过所述预定阈值且最大似然值所属类别并非原始标注类别，则将标签修改为最大似然值所属类别，其余情况将保持原始标签不变。通过设定所述预定阈值，判断是否对对应的样本数据进行修改，能够达到减少样本的个体偏差，增大预测结果的准确性的效果。

进一步的，如图5所示，所述对符合所述预定标签修改条件的所述各个样本数据进行修改之后，步骤S700还包括：

步骤S750：在发生修改的样本数据中进行矫正效果的抽样观察，获得评估结果；

步骤S760：判断所述评估结果是否提升；

步骤S770：如果所述评估结果有提升，重新统计各个类别下的词频后，继续执行步骤e.f.g；

步骤S780：如果所述评估结果不再提升，将所述评估结果作为最终矫正结果。

具体而言，由于数据集本身是存在错误的，故没有一份标准的标注数据集作为验证，所以需要人工抽样进行验证，获得评估结果。如果所述评估结果有上升，则重新统计各个类别下的词频后，继续校正，执行步骤e.f.g，如果所述评估结果下降，说明出现正确的样本被修改的情况，应该及时停止将上一轮次的数据集结果作为最终校正结果，如果所述评估结果不在改变，将上一轮次的数据集结果作为最终校正的数据集结果。该方法能够得到用于短文本分类的贝叶斯模型，其校正速度快，并且能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量。

综上所述，本申请实施例所提供的一种基于贝叶斯定理的短文本分类数据集矫正方法及系统具有如下技术效果：

1、由于根据多个样本类别，获得待校正数据集；对所述待校正数据集的文本内容进行编码表示；获得所述多个样本类别的样本平滑参数；根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合所述预定标签修改条件的所述各个样本数据进行修改的技术方案，本申请实施例通过提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，达到了能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量，校正速度快，能够快速获取可用数据集，能够对无标签的样本进行预测，提高分类过程中数据标签准确性及正确率的技术效果。

实施例二

基于与前述实施例中一种基于贝叶斯定理的短文本分类数据集矫正方法相同的发明构思，如图6所示，本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正系统，其中，所述系统包括：

第一获得单元11，所述第一获得单元11用于根据多个样本类别，获得待校正数据集；

第一编码单元12，所述第一编码单元12用于对所述待校正数据集的文本内容进行编码表示；

第二获得单元13，所述第二获得单元13用于获得所述多个样本类别的样本平滑参数；

第一处理单元14，所述第一处理单元14用于获得根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；

第三获得单元15，所述第三获得单元15用于依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；

第一设定单元16，所述第一设定单元16用于设定预定标签修改条件；

第一修改单元17，所述第一修改单元17用于对符合所述预定标签修改条件的所述各个样本数据进行修改。

进一步的，所述系统包括：

第四获得单元，所述第四获得单元用于在发生修改的样本数据中进行矫正效果的抽样观察，获得评估结果；

第一判断单元，所述第一判断单元用于判断所述评估结果是否提升；

第一执行单元，所述第一执行单元用于如果所述评估结果有提升，重新统计各个类别下的词频后，继续执行步骤e.f.g；

第一矫正单元，所述第一矫正单元用于如果所述评估结果不再提升，将所述评估结果作为最终矫正结果。

进一步的，所述系统包括：

第一分词单元，所述第一分词单元用于对所述待校正数据集的文本内容进行词粒度的分词；

第二编码单元，所述第二编码单元用于使用one-hot编码方式对分词后的所述文本内容进行编码，将文本内容转换为向量表示。

进一步的，所述系统包括：

第五获得单元，所述第五获得单元用于获得可变值λ_k，其中，所述可变值λ_k为所述多个样本类别的总样本数除以常数C，其中，C为超参数；

第六获得单元，所述第六获得单元用于基于所述可变值λ_k，对所述编码表示后的所述待校正数据集的词频进行统计，获得所述多个样本类别的样本平滑参数。

进一步的，所述系统包括：

第一计算单元，所述第一计算单元用于依据所述贝叶斯定理，计算各个样本类别出现的先验概率，以及出现各个单词的条件概率；

第七获得单元，所述第七获得单元用于根据所述多个样本类别的样本平滑参数、各个样本类别出现的先验概率，以及出现各个单词的条件概率，获得各个样本数据属于不同样本类别的对数似然。

更进一步的，所述系统还包括：

第八获得单元，所述第八获得单元用于对所述各个样本数据属于不同样本类别的对数似然进行排序，获得最大似然值和次大似然值；

第九获得单元，所述第九获得单元用于获得预定阈值；

第二判断单元，所述第二判断单元用于判断所述最大似然值和次大似然值之差是否超过所述预定阈值；

第二修改单元，所述第二修改单元用于如果所述最大似然值和次大似然值之差超过所述预定阈值，对对应的样本数据进行修改。

前述图1实施例一中的一种基于贝叶斯定理的短文本分类数据集矫正方法的各种变化方式和具体实例同样适用于本实施例的一种基于贝叶斯定理的短文本分类数据集矫正系统，通过前述对一种基于贝叶斯定理的短文本分类数据集矫正方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于贝叶斯定理的短文本分类数据集矫正方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图7来描述本申请实施例的电子设备，

基于与前述实施例中一种基于贝叶斯定理的短文本分类数据集矫正方法相同的发明构思，本申请实施例还提供了一种基于贝叶斯定理的短文本分类数据集矫正系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得系统以执行第一方面任一项所述的方法。

该电子设备300包括：处理器302、通信接口303、存储器301。可选的，电子设备300还可以包括总线架构304。其中，通信接口303、处理器302以及存储器301可以通过总线架构304相互连接；总线架构304可以是外设部件互连标(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture，简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器302可以是一个CPU，微处理器，ASIC，或一个或多个用于控制本申请方案程序执行的集成电路。

通信接口303，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN),无线局域网(wireless local areanetworks，WLAN)，有线接入网等。

存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable Programmable read-only memory，EEPROM)、只读光盘(compactdiscread-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器301用于存储执行本申请方案的计算机执行指令，并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令，从而实现本申请上述实施例提供的一种基于贝叶斯定理的短文本分类数据集矫正方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

本申请实施例提供了一种基于贝叶斯定理的短文本分类数据集矫正方法，其中，所述方法包括：根据多个样本类别，获得待校正数据集；对所述待校正数据集的文本内容进行编码表示；获得所述多个样本类别的样本平滑参数；根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；设定预定标签修改条件；对符合所述预定标签修改条件的所述各个样本数据进行修改的技术方案，本申请实施例通过提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统，达到了能够利用互联网存在的不准确、不正确的短文本分类数据集，自动化地校正数据集，提高标注质量，校正速度快，能够快速获取可用数据集，能够对无标签的样本进行预测，提高分类过程中数据标签准确性及正确率的技术效果。

本领域普通技术人员可以理解：本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围，也不表示先后顺序。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个、种)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于终端中。可选地，处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。

Claims

1.一种基于贝叶斯定理的短文本分类数据集矫正方法，其中，所述方法包括：

a.根据多个样本类别，获得待校正数据集；

b.对所述待校正数据集的文本内容进行编码表示；

c.获得所述多个样本类别的样本平滑参数；

d.根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；

e.依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；

f.设定预定标签修改条件；

g.对符合所述预定标签修改条件的所述各个样本数据进行修改；

对所述编码表示后的所述待校正数据集的词频进行平滑处理，包括：

获得可变值λ_k，其中，所述可变值λ_k为每种样本类别的总样本数除以常数C，其中，C为超参数；

基于所述可变值λ_k，对所述编码表示后的所述待校正数据集的词频进行统计，获得所述多个样本类别的样本平滑参数。

2.如权利要求1所述的方法，其中，所述对符合所述预定标签修改条件的所述各个样本数据进行修改之后，还包括：

在发生修改的样本数据中进行矫正效果的抽样观察，获得评估结果；

判断所述评估结果是否提升；

如果所述评估结果有提升，重新统计各个类别下的词频后，继续执行步骤e.f.g；

如果所述评估结果不再提升，将所述评估结果作为最终矫正结果。

3.如权利要求1所述的方法，其中，所述对所述待校正数据集的文本内容进行编码表示，包括：

对所述待校正数据集的文本内容进行词粒度的分词；

使用one-hot编码方式对分词后的所述文本内容进行编码，将文本内容转换为向量表示。

4.如权利要求1所述的方法，其中，依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然，包括：

依据所述贝叶斯定理，计算各个样本类别出现的先验概率，以及出现各个单词的条件概率；

根据所述多个样本类别的样本平滑参数、各个样本类别出现的先验概率，以及出现各个单词的条件概率，获得各个样本数据属于不同样本类别的对数似然。

5.如权利要求1所述的方法，其中，所述对符合所述预定标签修改条件的所述各个样本数据进行修改，包括：

对所述各个样本数据属于不同样本类别的对数似然进行排序，获得最大似然值和次大似然值；

获得预定阈值；

判断所述最大似然值和次大似然值之差是否超过所述预定阈值；

如果所述最大似然值和次大似然值之差超过所述预定阈值，对对应的样本数据进行修改。

6.一种基于贝叶斯定理的短文本分类数据集矫正系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于根据多个样本类别，获得待校正数据集；

第一编码单元，所述第一编码单元用于对所述待校正数据集的文本内容进行编码表示；

第二获得单元，所述第二获得单元用于获得所述多个样本类别的样本平滑参数；

第一处理单元，所述第一处理单元用于获得根据所述样本平滑参数，对所述编码表示后的所述待校正数据集的词频进行平滑处理；

第三获得单元，所述第三获得单元用于依据贝叶斯定理，根据数据平滑后的所述词频，获得各个样本数据属于不同样本类别的对数似然；

第一设定单元，所述第一设定单元用于设定预定标签修改条件；

第一修改单元，所述第一修改单元用于对符合所述预定标签修改条件的所述各个样本数据进行修改；

所述第一处理单元，还用于：

7.一种基于贝叶斯定理的短文本分类数据集矫正系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使系统以执行如权利要求1～5任一项所述的方法。