CN113590812A - 垃圾文本训练样本的筛选方法及装置、电子设备 - Google Patents

垃圾文本训练样本的筛选方法及装置、电子设备 Download PDF

Info

Publication number
CN113590812A
CN113590812A CN202010367128.7A CN202010367128A CN113590812A CN 113590812 A CN113590812 A CN 113590812A CN 202010367128 A CN202010367128 A CN 202010367128A CN 113590812 A CN113590812 A CN 113590812A
Authority
CN
China
Prior art keywords
training sample
text
classifier
character
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010367128.7A
Other languages
English (en)
Other versions
CN113590812B (zh
Inventor
高喆
蒋卓人
段誉
康杨杨
张琼
孙常龙
刘晓钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010367128.7A priority Critical patent/CN113590812B/zh
Publication of CN113590812A publication Critical patent/CN113590812A/zh
Application granted granted Critical
Publication of CN113590812B publication Critical patent/CN113590812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种垃圾文本训练样本的筛选方法及装置、电子设备;所述方法包括:对训练样本进行数据增强,得到增强训练样本;基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;将所述变异增强训练样本输入分类器;如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。

Description

垃圾文本训练样本的筛选方法及装置、电子设备
技术领域
本说明书一个或多个实施例涉及计算机应用技术领域,尤其涉及一种垃圾文本训练样本的筛选方法及装置、电子设备。
背景技术
在泛通信领域,为了提升用户体验,经常需要对短信、电邮等文本数据进行垃圾文本识别,从而可以对识别出的垃圾文本进行屏蔽。在实际应用中,通常可以通过用于垃圾文本识别的机器学习模型来实现垃圾文本的识别。然而,各种机器学习模型都具有相同的先决条件:需要一个丰富且数量庞大的数据样本集合,以利用该数据样本集合对机器学习模型进行训练。目前,通常需要人工对数据样本集合中的数据样本进行标注,费时、费力,并且成本较高,因此如何减少需要标注的数据样本的数量,从而提高标注效率,降低标注成本,也就成为亟待解决的问题。
发明内容
本说明书提出一种垃圾文本训练样本的筛选方法,所述方法包括:
对训练样本进行数据增强,得到增强训练样本;
基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
将所述变异增强训练样本输入分类器;
如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
可选地,所述对训练样本进行数据增强,包括:
在训练数据中增加语义相近似的文本集合;所述训练数据包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
可选地,所述汉字异构图是通过拼音、郑码和笔顺构建的;
所述基于汉字异构图对所述增强训练样本进行字音和字形变换,包括:
将所述增强训练样本中的每个汉字进行向量表示;
通过每个汉字的向量表示之间的距离计算,得到字音和/或字形相似的汉字;
根据所述关键部分的分布数据,对所述增强训练样本进行字形和/或字音相似的汉字的替换。
可选地,所述方法还包括:
判断所述疑似垃圾文本是否为垃圾文本;
如果所述疑似垃圾文本为垃圾文本,则确定所述垃圾文本的关键部分;
根据所述关键部分计算并更新所述关键部分的分布数据。
可选地,所述方法还包括:
将所述垃圾文本添加至所述已标注的文本集合;
根据更新后的已标注的文本集合重新训练所述分类器。
可选地,通过以下方式确定分类器的输出变化是否剧烈:
计算所述分类器的输出结果的方差,并判断所述方差是否大于预设阈值;
如果所述方差大于所述阈值,则确定所述分类器的输出变化剧烈。
本说明书还提出一种垃圾文本训练样本的筛选装置,所述装置包括:
增强模块,用于对训练样本进行数据增强,得到增强训练样本;
变换模块,用于基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
输入模块,用于将所述变异增强训练样本输入分类器;
第一确定模块,用于如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
可选地,所述增强模块具体用于:
在训练数据中增加语义相近似的文本集合;所述训练数据包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
可选地,所述汉字异构图是通过拼音、郑码和笔顺构建的;
所述变换模块具体用于:
将所述增强训练样本中的每个汉字进行向量表示;
通过每个汉字的向量表示之间的距离计算,得到字音和/或字形相似的汉字;
根据所述关键部分的分布数据,对所述增强训练样本进行字形和/或字音相似的汉字的替换。
可选地,所述装置还包括:
第一判断模块,用于判断所述疑似垃圾文本是否为垃圾文本;
第二确定模块,用于如果所述疑似垃圾文本为垃圾文本,则确定所述垃圾文本的关键部分;
更新模块,用于根据所述关键部分计算并更新所述关键部分的分布数据。
可选地,所述装置还包括:
添加模块,用于将所述垃圾文本添加至所述已标注的文本集合;
训练模块,用于根据更新后的已标注的文本集合重新训练所述分类器。
可选地,所述装置还包括:
第二判断模块,用于计算所述分类器的输出结果的方差,并判断所述方差是否大于预设阈值;
第三确定模块,用于如果所述方差大于所述阈值,则确定所述分类器的输出变化剧烈。
本说明书还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述任一项所述方法的步骤。
本说明书还提出一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述任一项所述方法的步骤。
在上述技术方案中,可以先对待筛选的垃圾文本训练样本进行数据增强,再对数据增强后的训练样本进行字音和字形变换,以将经过数据增强、字音和字形变换的训练样本输入分类器,如果此时分类器的输出变化剧烈,则可以确定该训练样本为疑似垃圾文本。采用这样的方式,可以对训练样本进行筛选,减少需要标注的训练样本的数量,从而提高标注效率,降低标注成本。
附图说明
图1是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选系统的示意图;
图2是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选方法的流程图;
图3是本说明书一示例性实施例示出的一种电子设备的结构示意图;
图4是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书提供一种先对待筛选的垃圾文本训练样本进行数据增强,再对数据增强后的训练样本进行字音和字形变换,以将经过数据增强、字音和字形变换的训练样本输入分类器,如果此时分类器的输出变化剧烈,则确定该训练样本为疑似垃圾文本的技术方案。
在具体实现时,首先,可以获取待筛选的某个训练样本集合(称为目标样本集合)。在本说明书中,将目标训练样本集合中的文本样本称为目标训练样本。
需要说明的是,目标训练样本集合可以包括未标注的目标训练样本。
在获取到上述目标训练样本集合的情况下,可以先对目标训练样本集合中的目标训练样本进行数据增强,得到增强训练样本,再基于汉字异构图对得到的增强训练样本进行字音和字形变换,得到变异增强训练样本。
在得到了上述变异增强训练样本的情况下,可以将得到的变异增强训练样本输入至分类器进行分类计算,以由该分类器输出各条变异增强训练样本的分类计算结果。
针对上述目标训练样本集合中的任意一条目标训练样本,可以判断上述分类器输出的与该目标训练样本对应的变异增强训练样本的分类计算结果是否变化剧烈。如果是,则可以将该目标训练样本确定为疑似垃圾文本,后续可以利用该疑似垃圾文本重新训练该分类器。
在上述技术方案中,可以先对待筛选的垃圾文本训练样本进行数据增强,再对数据增强后的训练样本进行字音和字形变换,以将经过数据增强、字音和字形变换的训练样本输入分类器,如果此时分类器的输出变化剧烈,则可以确定该训练样本为疑似垃圾文本。采用这样的方式,可以对训练样本进行筛选,减少需要标注的训练样本的数量,从而提高标注效率,降低标注成本。
请参考图1,图1是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选系统的示意图。结合图1,请参考图2,图2是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选方法的流程图。该垃圾文本训练样本的筛选方法可以应用于提供垃圾文本训练样本的筛选服务的服务端,该服务端可以部署在电子设备上,该电子设备具体可以是服务器或者计算机等,本说明书对此不作限制。该垃圾文本训练样本的筛选方法可以包括以下步骤:
步骤201,对训练样本进行数据增强,得到增强训练样本;
步骤202,基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
步骤203,将所述变异增强训练样本输入分类器;
步骤204,如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
在本实施例中,首先,获取待筛选的某个垃圾文本训练样本集合(称为目标训练样本集合)。在本说明书中,将目标训练样本集合中的文本样本称为目标训练样本。
需要说明的是,目标训练样本集合可以包括未标注的目标训练样本。
在获取到上述目标训练样本集合的情况下,可以先对目标训练样本集合中的目标训练样本进行数据增强,得到与该目标训练样本对应的增强训练样本,再基于汉字异构图对得到的增强训练样本进行字音和字形变换,得到与该目标训练样本对应的变异增强训练样本。
具体地,可以先对目标训练样本集合中的每条目标训练样本进行数据增强,以得到与每条目标训练样本对应的增强训练样本,再对得到的增强训练样本进行字音和字形变换,以得到与每条目标训练样本对应的变异增强训练样本。
需要说明的是,对于目标训练样本集合中的任意一条目标训练样本而言,最终得到的与该目标训练样本对应的变异增强训练样本可以仅有一条,也可以有多条。在这种情况下,可以在本地维护如下表1所示的目标训练样本与变异增强训练样本的对应关系:
Figure BDA0002476880100000071
表1
如表1所示,与作为目标训练样本的文本样本A对应的变异增强训练样本为文本样本A1、文本样本A2和文本样本A3;与作为目标训练样本的文本样本B对应的变异增强训练样本为文本样本B1。
在示出的一种实施方式中,上述目标训练样本集合除了可以包括未标注的训练样本之外,还可以包括已标注的训练样本,以及根据在文本中标注出的关键部分生成的关键部分的分布数据。也即,对于上述目标训练样本集合而言,其中的训练数据可以包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
其中,该关键部分的分布数据可以指示关键部分在文本中的位置分布。
举例来说,假设某文本为垃圾文本,则对于该文本而言,该文本的的关键部分具体可以是表明该文本为垃圾文本的部分,例如:对于“点击链接http://****.com领取免费礼品”这条垃圾文本而言,这条垃圾文本的关键部分具体可以是“链接”和“免费”。
在实际应用中,可以将包括关键部分的分布数据、已标注的目标训练样本和未标注的目标训练样本的上述目标训练样本集合输入至基于半监督学习的数据增强模型,以由该基于半监督学习的数据增强模型对目标训练样本集合中的目标训练样本进行数据增强处理。
其中,该基于半监督学习的数据增强模型可以是基于半监督学习的变分自编码器(S-VAE,Semi-Supervised Variational Auto-Encoder)或基于半监督学习的自编码器。
以基于半监督学习的变分自编码器为例,该基于半监督学习的数据增强模型具体可以包括变分自编码器,以及基于半监督学习的分类器。
在使用该基于半监督学习的数据增强模型对目标训练样本集合中的目标训练样本进行数据增强处理时,一方面,可以将目标训练样本集合中的已标注的目标训练样本和未标注的目标训练样本输入至该基于半监督学习的分类器,以由该基于半监督学习的分类器对目标训练样本集合中的未标注的目标训练样本进行分类计算。对于目标训练样本集合中的任意一条未标注的目标训练样本而言,可以根据该未标注的目标训练样本的分类计算结果,确定该未标注的目标训练样本的标签。
另一方面,可以将目标训练样本集合中的未标注的目标训练样本输入至该变分自编码器的编码器(Encoder),由该变分自编码器基于其包含的数据处理算法(即图1中示出的“code”部分),并根据目标训练样本集合中的关键部分的分布数据对目标训练样本集合中的未标注的目标训练样本进行相应的数据处理。
后续,可以将目标训练样本集合中的目标训练样本及其对应的标签,以及由该变分自编码器进行了数据处理的未标注的目标训练样本,输入至该变分自编码器的解码器(Decoder),以由该变分自编码器输出对目标训练样本集合中的目标训练样本进行数据增强处理得到的增强训练样本。
需要说明的是,对于目标训练样本集合中的任意一条目标训练样本而言,对该目标训练样本进行数据增强处理得到的与该目标训练样本对应的增强训练样本,在语义上与该目标训练样本相近似,但在关键部分处发生了变化。也即,对目标训练样本集合中的目标训练样本进行数据增强处理,实质上是对目标训练样本集合中的目标训练样本进行语义变换,从而可以在目标训练样本集合中的训练数据中增加语义近似的文本集合。
举例来说,假设目标样本集合中的某条目标训练样本为中文文本“点击链接领取免费礼品”,则对该目标训练样本进行数据增强处理得到的增强训练样本可以是中文文本“点击链接领取无偿礼品”。
在得到了与上述目标训练样本集合中的目标训练样本对应的增强训练样本的情况下,可以进一步对得到的增强训练样本进行字音和字形变换,得到与该目标训练样本集合中的目标训练样本对应的变异增强训练样本。
具体地,对于某个汉字而言,可以通过拼音、郑码(或五笔)和笔顺等输入法构建该汉字的汉字异构图,并基于该汉字异构图进行计算得到表示该汉字的相关向量,从而可以通过计算向量之间的距离,确定与该汉字的字音和字形相似的汉字。采用这种方式,即可实现对文本的字音和字形变换。
举例来说,假设对目标样本集合中的某条目标训练样本进行语义变换后得到的增强训练样本是中文文本“点击链接领取无偿礼品”,则进一步对该增强训练样本进行字音和字形变换得到的变异增强训练样本可以是中文文本“点击链接领取无常礼品”。
在本实施例中,在得到与上述目标训练样本集合中的目标训练样本对应的变异增强训练样本的情况下,可以进一步将得到的变异增强训练样本输入至分类器进行分类计算,以由该分类器输出各条变异增强训练样本的分类计算结果。
其中,该分类器可以是卷积神经网络(CNN,Convolutional Neural Networks)模型、递归神经网络(RNN,Recurrent Neural Network)模型或长短期记忆(LSTM,LongShort-Term Memory)网络模型,具体可以由技术人员预先设置。
需要说明的是,如图1所示,该分类器与上述基于半监督学习的数据增强模型中的基于半监督学习的分类器,不是同一个分类器。
由于上述目标训练样本集合中仅有未标注的目标训练样本需要进行标注,因此为了减少数据处理量,可以仅将与该目标训练样本集合中的未标注的目标训练样本对应的变异增强训练样本输入至上述分类器进行分类计算,以由该分类器输出与未标注的目标训练样本对应的各条变异增强训练样本的分类计算结果。
对于上述目标训练样本集合中的任意一条训练样本而言,可以通过上述在本地维护的目标训练样本与变异增强训练样本的对应关系,确定与该目标训练样本对应的变异增强训练样本。
后续,可以基于与该目标训练样本对应的变异增强训练样本的分类计算结果,确定该目标训练样本是否为疑似垃圾文本,即该目标训练样本是否具有标注价值。
具体地,可以基于与该目标训练样本对应的各条变异增强训练样本的分类计算结果,进一步计算该目标训练样本的标注价值指标。如果计算得到的该标注价值指标大于预设阈值,则可以确定该目标训练样本具有标注价值。
其中,预设阈值可以是由技术人员预先设置的数值,也可以是系统默认的缺省值,本说明书对此不作限制。
在示出的一种实施方式中,可以计算与上述目标训练样本对应的各条变异增强训练样本的分类计算结果的方差,并将计算得到的该方差确定为该目标训练样本的标注价值指标。在这种情况下,可以采用以下公式计算目标训练样本的标注价值指标:
Figure BDA0002476880100000101
在上述公式中,SDi为上述目标训练样本集合中的第i条目标训练样本的标注价值指标,M为与第i条目标训练样本对应的变异增强训练样本的数量,pij为与第i条目标训练样本对应的第j条变异增强训练样本的分类计算结果,
Figure BDA0002476880100000102
为与第i条目标训练样本对应的所有变异增强训练样本的分类计算结果的平均值。
以上表1中的作为目标训练样本的文本样本A为例,则与文本样本A对应的变异增强训练样本为文本样本A1、文本样本A2和文本样本A3。假设文本样本A1的分类计算结果为p1,文本样本A2的分类计算结果为p2,文本样本A3的分类计算结果为p3,则文本样本A的标注价值指标SDA为:
Figure BDA0002476880100000103
在示出的一种实施方式中,在确定出上述目标训练样本集合中的疑似垃圾文本的情况下,可以进一步判断该疑似垃圾文本是否为垃圾文本。如果确定了该垃圾文本是垃圾文本,则可以再进一步确定该垃圾文本中的关键部分。
后续,一方面,可以根据这些垃圾文本中标注出的关键部分,对上述关键部分的分布数据进行更新。
另一方面,还可以将这些垃圾文本作为已标注的训练样本,并利用这些已标注的训练样本重新对上述步骤202中的分类器进行模型训练,以提高该分类器的性能。也即,可以将这些垃圾文本添加至上述目标训练样本集合中的已标注的文本集合,并根据更新后的已标注的文本集合重新训练该分类器。
在实际应用中,可以将上述疑似垃圾文本输出给用户,以由用户对被确定为疑似垃圾文本的这些目标训练样本进行标注。
具体地,可以将这些目标训练样本发送至用户所使用的电子设备,以由用户通过该电子设备对这些目标训练样本进行标注。
针对上述目标训练样本,用户一方面可以为这些目标训练样本标注标签,另一方面可以在这些目标训练样本中标注出关键部分。
后续,一方面,可以根据用户在这些目标训练样本中标注出的关键部分,对上述关键部分的分布数据进行更新。
另一方面,还可以利用由用户标注了标签的这些目标训练样本,重新对上述步骤202中的分类器进行模型训练,以提高该分类器的性能。
在上述技术方案中,可以先对待筛选的垃圾文本训练样本进行数据增强,再对数据增强后的训练样本进行字音和字形变换,以将经过数据增强、字音和字形变换的训练样本输入分类器,如果此时分类器的输出变化剧烈,则可以确定该训练样本为疑似垃圾文本。采用这样的方式,可以对训练样本进行筛选,减少需要标注的训练样本的数量,从而提高标注效率,降低标注成本。
进一步需要说明的是,上述方法可以有效应用于泛通信领域的垃圾信息识别场景中。例如垃圾短信的识别、垃圾电邮的识别、垃圾广告的识别等等。
与前述垃圾文本训练样本的筛选方法的实施例相对应,本说明书还提供了垃圾文本训练样本的筛选装置的实施例。
本说明书垃圾文本训练样本的筛选装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书垃圾文本训练样本的筛选装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该垃圾文本训练样本的筛选的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图4,图4是本说明书一示例性实施例示出的一种垃圾文本训练样本的筛选装置的框图。该垃圾文本训练样本的筛选装置40可以应用于图3所示的电子设备,包括:
增强模块401,用于对训练样本进行数据增强,得到增强训练样本;
变换模块402,用于基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
输入模块403,用于将所述变异增强训练样本输入分类器;
第一确定模块404,用于如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
在本实施例中,所述增强模块401具体用于:
在训练数据中增加语义相近似的文本集合;所述训练数据包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
在本实施例中,所述汉字异构图是通过拼音、郑码和笔顺构建的;
所述变换模块402具体用于:
将所述增强训练样本中的每个汉字进行向量表示;
通过每个汉字的向量表示之间的距离计算,得到字音和/或字形相似的汉字;
根据所述关键部分的分布数据,对所述增强训练样本进行字形和/或字音相似的汉字的替换。
在本实施例中,所述装置40还包括:
第一判断模块405,用于判断所述疑似垃圾文本是否为垃圾文本;
第二确定模块406,用于如果所述疑似垃圾文本为垃圾文本,则确定所述垃圾文本的关键部分;
更新模块407,用于根据所述关键部分计算并更新所述关键部分的分布数据。
在本实施例中,所述装置40还包括:
添加模块408,用于将所述垃圾文本添加至所述已标注的文本集合;
训练模块409,用于根据更新后的已标注的文本集合重新训练所述分类器。
在本实施例中,所述装置还包括:
第二判断模块410,用于计算所述分类器的输出结果的方差,并判断所述方差是否大于预设阈值;
第三确定模块411,用于如果所述方差大于所述阈值,则确定所述分类器的输出变化剧烈。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (14)

1.一种垃圾文本训练样本的筛选方法,其特征在于,所述方法包括:
对训练样本进行数据增强,得到增强训练样本;
基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
将所述变异增强训练样本输入分类器;
如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
2.根据权利要求1所述的方法,其特征在于,所述对训练样本进行数据增强,包括:
在训练数据中增加语义相近似的文本集合;所述训练数据包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
3.根据权利要求2所述的方法,其特征在于,所述汉字异构图是通过拼音、郑码和笔顺构建的;
所述基于汉字异构图对所述增强训练样本进行字音和字形变换,包括:
将所述增强训练样本中的每个汉字进行向量表示;
通过每个汉字的向量表示之间的距离计算,得到字音和/或字形相似的汉字;
根据所述关键部分的分布数据,对所述增强训练样本进行字形和/或字音相似的汉字的替换。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
判断所述疑似垃圾文本是否为垃圾文本;
如果所述疑似垃圾文本为垃圾文本,则确定所述垃圾文本的关键部分;
根据所述关键部分计算并更新所述关键部分的分布数据。
5.根据权利要求4所述方法,其特征在于,所述方法还包括:
将所述垃圾文本添加至所述已标注的文本集合;
根据更新后的已标注的文本集合重新训练所述分类器。
6.根据权利要求1所述的方法,其特征在于,通过以下方式确定分类器的输出变化是否剧烈:
计算所述分类器的输出结果的方差,并判断所述方差是否大于预设阈值;
如果所述方差大于所述阈值,则确定所述分类器的输出变化剧烈。
7.一种垃圾文本训练样本的筛选装置,其特征在于,所述装置包括:
增强模块,用于对训练样本进行数据增强,得到增强训练样本;
变换模块,用于基于汉字异构图对所述增强训练样本进行字音和字形变换,得到变异增强训练样本;
输入模块,用于将所述变异增强训练样本输入分类器;
第一确定模块,用于如果所述分类器的输出变化剧烈,则确定所述训练样本为疑似垃圾文本。
8.根据权利要求7所述的装置,其特征在于,所述增强模块具体用于:
在训练数据中增加语义相近似的文本集合;所述训练数据包括关键部分的分布数据、已标注的文本集合,以及未标注的文本集合。
9.根据权利要求8所述的装置,其特征在于,所述汉字异构图是通过拼音、郑码和笔顺构建的;
所述变换模块具体用于:
将所述增强训练样本中的每个汉字进行向量表示;
通过每个汉字的向量表示之间的距离计算,得到字音和/或字形相似的汉字;
根据所述关键部分的分布数据,对所述增强训练样本进行字形和/或字音相似的汉字的替换。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于判断所述疑似垃圾文本是否为垃圾文本;
第二确定模块,用于如果所述疑似垃圾文本为垃圾文本,则确定所述垃圾文本的关键部分;
更新模块,用于根据所述关键部分计算并更新所述关键部分的分布数据。
11.根据权利要求10所述装置,其特征在于,所述装置还包括:
添加模块,用于将所述垃圾文本添加至所述已标注的文本集合;
训练模块,用于根据更新后的已标注的文本集合重新训练所述分类器。
12.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于计算所述分类器的输出结果的方差,并判断所述方差是否大于预设阈值;
第三确定模块,用于如果所述方差大于所述阈值,则确定所述分类器的输出变化剧烈。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1至6中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN202010367128.7A 2020-04-30 2020-04-30 垃圾文本训练样本的筛选方法及装置、电子设备 Active CN113590812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010367128.7A CN113590812B (zh) 2020-04-30 2020-04-30 垃圾文本训练样本的筛选方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010367128.7A CN113590812B (zh) 2020-04-30 2020-04-30 垃圾文本训练样本的筛选方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN113590812A true CN113590812A (zh) 2021-11-02
CN113590812B CN113590812B (zh) 2024-03-05

Family

ID=78237012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010367128.7A Active CN113590812B (zh) 2020-04-30 2020-04-30 垃圾文本训练样本的筛选方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN113590812B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN110781294A (zh) * 2018-07-26 2020-02-11 国际商业机器公司 训练语料库细化和增量更新
WO2020057413A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063494A (ja) * 2012-09-20 2014-04-10 Fujitsu Ltd 分類装置、分類方法及び電子設備
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110781294A (zh) * 2018-07-26 2020-02-11 国际商业机器公司 训练语料库细化和增量更新
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置
WO2020057413A1 (zh) * 2018-09-17 2020-03-26 阿里巴巴集团控股有限公司 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN109977416A (zh) * 2019-04-03 2019-07-05 中山大学 一种多层次自然语言反垃圾文本方法及系统
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IQRA SAFDER等: "DS4A: Deep Search System for Algorithms from Full-Text Scholarly Big Data", 《2018 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW)》 *
刘雅璇;潘万彬;: "基于自我训练的长效垃圾分类方法", 中国图象图形学报, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法

Also Published As

Publication number Publication date
CN113590812B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN109271521B (zh) 一种文本分类方法及装置
US11216510B2 (en) Processing an incomplete message with a neural network to generate suggested messages
CN110309297B (zh) 垃圾文本检测方法、可读存储介质和计算机设备
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN113837370A (zh) 用于训练基于对比学习的模型的方法和装置
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN113222022A (zh) 一种网页分类识别方法及装置
CN111159417A (zh) 文本内容关键信息的提取方法、装置、设备及存储介质
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN109597982B (zh) 摘要文本识别方法及装置
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
EP3942459A1 (en) Object detection and segmentation for inking applications
CN111401062A (zh) 文本的风险识别方法、装置及设备
CN110909768A (zh) 一种标注数据获取方法及装置
CN112667803A (zh) 一种文本情感分类方法及装置
CN113590812B (zh) 垃圾文本训练样本的筛选方法及装置、电子设备
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN115082598A (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
CN111159397B (zh) 文本分类方法和装置、服务器
CN115700555A (zh) 模型训练方法、预测方法、装置和电子设备
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN114359941A (zh) 发票信息的抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant