CN115098679A - 文本分类标注样本的异常检测方法、装置、设备及介质 - Google Patents

文本分类标注样本的异常检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN115098679A
CN115098679A CN202210749204.XA CN202210749204A CN115098679A CN 115098679 A CN115098679 A CN 115098679A CN 202210749204 A CN202210749204 A CN 202210749204A CN 115098679 A CN115098679 A CN 115098679A
Authority
CN
China
Prior art keywords
classification
data
cluster
text classification
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210749204.XA
Other languages
English (en)
Inventor
张健
王子豪
王子
唐家英
陈运文
纪达麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN202210749204.XA priority Critical patent/CN115098679A/zh
Priority to PCT/CN2022/118488 priority patent/WO2024000822A1/zh
Publication of CN115098679A publication Critical patent/CN115098679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本分类标注样本的异常检测方法、装置、设备及介质。该方法包括:获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,对文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,解决了由于样本去噪模型识别准确率低而造成工作人员工作量大,以及样本去噪没有解释性说明的问题,实现了能够有效地对文本分类标注样本进行异常检测,提高了样本去噪的准确率,降低了样本去噪的人力成本。

Description

文本分类标注样本的异常检测方法、装置、设备及介质
技术领域
本发明实施例涉及计算机数据处理技术,尤其涉及一种文本分类标注样本的异常检测方法、装置、设备及介质。
背景技术
文本分类是机器学习领域中一项常见的处理任务,应用场景包括新闻分类、情感分析、意图识别等等。在实际的文本分类任务处理过程中,首先需要开发人员针对场景所需的分类标签完成一定量的标注样本,然后通过模型训练来完成文本分类服务构建。在此过程,标注样本的质量会和文本服务预测的准确率密切相关。标注质量高的样本集构建模型性能就较好,反之就会导致比较差的分类效果。影响标注质量的噪声样本来源原因有多种,包括标注团队内部标准不一致和标注人员的主观判断有错误等,所以样本去噪是文本分类应用开发过程的重要环节。
发明人在发明的过程中发现现有技术的缺陷为:噪声样本通过判断神经网络是否收敛的方式,有可能会在发生冲突的样本中选择正常的样本进行剔除、保留错误的样本,导致数据质量进一步降低。噪声样本识别准确率过低容易引入大量人工工作,也会导致正常样本被错误的过滤掉,而噪声样本被保留。
发明内容
本发明实施例提供了一种文本分类标注样本的异常检测方法、装置、设备及介质,以实现有效地对文本分类标注样本进行异常检测,降低样本去噪的人力成本。
第一方面,本发明实施例提供了一种文本分类标注样本的异常检测方法,其中,包括:
获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
第二方面,本发明实施例还提供了一种文本分类标注样本的异常检测装置,该文本分类标注样本的异常检测装置包括:
文本分类标注数据集获取模块,用于获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
聚类簇确定模块,用于计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
分类子簇确定模块,用于在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
异常分类子簇识别模块,用于根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本发明任意实施例所述的文本分类标注样本的异常检测方法。
第四方面,本发明实施例还提供了一种包含计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如本发明任意实施例所述的文本分类标注样本的异常检测方法。
本发明实施例所提供的技术方案,通过获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,对文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,解决了由于样本去噪模型识别准确率低而造成工作人员工作量大,以及样本去噪没有解释性说明的问题,实现了能够有效地对文本分类标注样本进行异常检测,提高了样本去噪的准确率,降低了样本去噪的人力成本。
附图说明
图1为本发明实施例一提供的一种文本分类标注样本的异常检测方法的流程图;
图2为本发明实施例二提供的另一种文本分类标注样本的异常检测方法的流程图;
图3是本发明实施例三提供的一种文本分类标注样本的异常检测装置的结构示意图;
图4是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本分类标注样本的异常检测方法的流程图。本实施例可适用于对文本分类标注样本进行样本去噪的情况。本实施例的方法可以由文本分类标注样本的异常检测装置执行,该装置可以通过软件和/或硬件的方式实现,该装置可配置于服务器或者终端设备中。
相应的,该方法具体包括如下步骤:
S110、获取待去噪的文本分类标注数据集。
其中,每个文本分类标注数据中包括分类标签。
其中,文本分类标注数据集可以是包括多个文本分类标注数据的数据集合。文本分类标注数据可以是根据分类标签的不同能够存在不同的标注数据,可以通过分类标签将文本分类标注数据分成不同的种类。
示例性的,假设在文本分类标注数据集存在100个文本分类标注数据,其中,可以分类标签A中存在20个文本分类标注数据,分类标签B中存在50个文本分类标注数据,分类标签C中存在25个文本分类标注数据,分类标签D中存在5个文本分类标注数据。
S120、计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇。
其中,语义相似度可以是表示两个文本分类标注数据之间的相似度,可以根据训练好的语义相似度模型来计算两个文本分类标注数据的余弦距离,进而得出两个文本分类标注数据之间的语义相似度。聚类处理可以是运用形态学算子将临近的类似分类区域聚类并合并,也就是将相似的文本分类标注数据进行聚类处理。聚类簇可以是由聚类所生成的一组样本的集合,同一簇内样本彼此相似,与其他簇中的样本相异。具体的,将相似的文本分类标注数据进行聚类处理之后,可以得到一个或者多个聚类簇。
可选的,计算两两文本分类标注数据之间的语义相似度,包括:将两两文本分类标注数据分别输入至预先训练的语义相似度模型中,获取所述两两文本分类标注数据之间的语义相似度。
其中,语义相似度模型可以是根据输入的两个文本分类标注数据,计算出两者之间的语义相似度的模型。
续前例,假设在文本分类标注数据集存在100个文本分类标注数据。100个文本分类标注数据两两之间计算其对应的语义相似度。接着可以根据语义相似度计算结果,对文本分类标注数据集进行聚类处理。假设可以得到2个聚类簇。可以分类标签A中存在20个文本分类标注数据和分类标签D中存在5个文本分类标注数据可以聚为一类,得到聚类簇1。分类标签B中存在50个文本分类标注数据和分类标签C中存在25个文本分类标注数据可以聚为一类,得到聚类簇2。
这样设置的好处在于:通过将两两文本分类标注数据分别输入至预先训练的语义相似度模型中,得到语义相似度。这样可以使得计算两者之间的语义相似度更加方便,通过语义相似度模型进行语义相似度的计算更加合理准确。
S130、在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇。
其中,二次聚类可以是在得到的聚类簇里再进行聚类处理,得到更加相似的分类子簇。分类子簇可以是在聚类簇里中存在的子簇,在一个聚类簇里可以包含一个或者多个分类子簇。
续前例,在得到的聚类簇1和聚类簇2中,对相同分类标签的各文本分类标注数据进行二次聚类。聚类簇1中可以得到两个分类子簇,分类标签A中存在20个文本分类标注数据为分类子簇1,以及分类标签D中存在5个文本分类标注数据为分类子簇2。聚类簇2中可以得到两个分类子簇,分类标签B中存在50个文本分类标注数据为分类子簇3,以及分类标签C中存在25个文本分类标注数据为分类子簇4。
S140、根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
其中,异常分类子簇可以是在聚类簇里,不满足占比权重过滤阈值的分类子簇。
可选的,根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇,包括:统计在当前分类子簇中文本各分类标注数据的数量,并计算各分类标注数据的数量占所属聚类簇中的数量的占比权重值;判断各占比权重值是否大于预设的占比权重过滤阈值,若否,则将当前分类子簇中文本各分类标注数据识别为异常分类子簇。
其中,占比权重值可以是当前分类子簇在所属聚类簇所占的权重值的大小。占比权重过滤阈值可以是预先设置的占比权重值的过滤阈值,假设当前分类子簇的占比权重值小于或者等于占比权重过滤阈值,则当前分类子簇为异常分类子簇。假设当前分类子簇的占比权重值大于占比权重过滤阈值,则当前分类子簇为正常分类子簇。
续前例,假设占比权重过滤阈值为30%。在聚类簇1中,可以计算出分类子簇1的占比权重值为80%,由于80%大于30%,则分类子簇1为正常分类子簇。分类子簇2的占比权重值为20%,由于20%小于30%,则分类子簇2为异常分类子簇。
进一步的,在聚类簇2中,可以计算出分类子簇3的占比权重值为66.67%,由于66.67%大于30%,则分类子簇3为正常分类子簇。分类子簇4的占比权重值为33.33%,由于33.33%大于30%,则分类子簇4为正常分类子簇。
这样设置的好处在于:通过计算当前分类子簇中的各分类标注数据的数量占所属聚类簇中的数量的占比权重值,并与预设的占比权重过滤阈值进行比较,可以确定当前分类子簇属于正常分类子簇或者异常分类子簇。这样可以根据科学准确地计算出占比权重值,进而有效地对当前分类子簇进行判断,提高了异常分类子簇判断的有效性和可靠性。
本发明实施例所提供的技术方案,通过获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,对文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,解决了由于样本去噪模型识别准确率低而造成工作人员工作量大,以及样本去噪没有解释性说明的问题,实现了能够有效地对文本分类标注样本进行异常检测,提高了样本去噪的准确率,降低了样本去噪的人力成本。
可选的,在将两两文本分类标注数据分别输入至预先训练的语义相似度模型中之前,还包括:将获取到的两个样本分类标注数据分别输入至参数共享层,得到两个样本分类标注数据分别对应的多个字向量;将第一样本分类标注数据对应的各所述字向量输入至池化层,得到第一样本分类标注数据向量,将第二样本分类标注数据对应的各所述字向量输入至池化层,得到第二样本分类标注数据向量;计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值,得到样本分类标注数据差值向量;拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量,得到样本分类标注数据拼接向量;将样本分类标注数据拼接向量输入至语义分类器中来训练,训练完成之后得到语义相似度模型。
其中,样本分类标注数据可以是在样本分类标注数据集中获取的样本数据。参数共享层可以是能够对接收到的样本分类标注数据进行处理的共享层,具体的参数共享层可以是sentence-Bert语义相似度模型中的Bert层,能够将接收到的样本分类标注数据用字向量的方式进行表示。字向量可以是样本分类标注数据中的每个字进行向量化的处理得到的向量。
其中,第一样本分类标注数据可以是两个样本分类标注数据中的一个样本数据。池化层可以是通过对数据进行分区采样,把一个大的矩阵降采样成一个小的矩阵,减少计算量,同时可以防止过拟合,这里具体指将各样本分类标注数据对应的所有字向量进行均值处理。第一样本分类标注数据向量可以是第一样本分类标注数据对应的所有字向量进行均值处理而得到的向量。第二样本分类标注数据可以是两个样本分类标注数据中的另一个样本数据。第二样本分类标注数据向量可以是第二样本分类标注数据对应的所有字向量进行均值处理而得到的向量。样本分类标注数据差值向量可以是计算两个样本分类标注数据向量之间的差值,根据得到的差值进行绝对值处理之后得到的差值向量。样本分类标注数据拼接向量可以是由两个或者多个向量进行拼接得到的向量。语义分类器可以是能够对输入的样本分类标注数据拼接向量进行语义分类的处理层。
示例性的,假设获取到两个样本分类标注数据,分别为第一样本分类标注数据和第二样本分类标注数据。将第一样本分类标注数据和第二样本分类标注数据分别输入至参数共享层,第一样本分类标注数据得到的字向量为{m1,m2,m3,…,mp};第二样本分类标注数据得到的字向量为{n1,n2,n3,…,nq}。将第一样本分类标注数据对应的各字向量输入至池化层,得到第一样本分类标注数据向量为
Figure BDA0003717713790000091
将第二样本分类标注数据对应的各字向量输入至池化层,得到第二样本分类标注数据向量为
Figure BDA0003717713790000092
因此可以得到样本分类标注数据差值向量为|u-v|。
进一步的,将向量u、v以及|u-v|进行拼接处理,得到样本分类标注数据拼接向量为w={u,v,u-v},具体的,假设向量u和向量v为三维向量,那样本分类标注数据拼接向量w为九维向量。相应的,将样本分类标注数据拼接向量w输入至语义分类器中来训练,训练完成之后得到语义相似度模型。
这样设置的好处在于:通过样本分类标注数据对语义相似度模型进行训练,这样使得训练出的语义相似度模型更加准确地输出两个文本分类标注数据之间的语义相似度,从而能更加准确对各文本分类标注数据进行聚类处理。
可选的,在根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇之后,还包括:分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签,并反馈给用户。
其中,解释标签可以是能够对异常分类子簇的占比权重值进行解释的标签。
续前例,假设占比权重过滤阈值为30%。在聚类簇1中,可以计算出分类子簇1的占比权重值为80%,由于80%大于30%,则分类子簇1为正常分类子簇。分类子簇2的占比权重值为20%,由于20%小于30%,则分类子簇2为异常分类子簇。分类子簇1对应标签A,分类子簇2对应标签D。由于分类子簇1为正常分类子簇,所以不需要添加解释标签并反馈给用户。可以添加解释标签为:在聚类簇1中,标签D的的占比权重值为20%,标签D的占比权重值低于阈值。
进一步的,在聚类簇2中,可以计算出分类子簇3的占比权重值为66.67%,由于66.67%大于30%,则分类子簇3为正常分类子簇。分类子簇4的占比权重值为33.33%,由于33.33%大于30%,则分类子簇4为正常分类子簇。分类子簇3对应标签B,分类子簇4对应标签C。由于分类子簇3和分类子簇4均为正常分类子簇,所以不需要添加解释标签并反馈给用户。
这样设置的好处在于:通过将识别出的异常分类子簇中的各文本分类标注数据中添加解释标签,并反馈给用户。这样可以更加便利工作人员的工作,能够降低工作人员的工作量,提高工作人员的效率,增加了异常分类子簇对应的标签的可读性。
实施例二
图2为本发明实施例二提供的另一种文本分类标注样本的异常检测方法的流程图。本实施例以上述各实施例为基础进行细化,在本实施例中,对根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇进一步细化。
相应的,该方法具体包括如下步骤:
S210、获取待去噪的文本分类标注数据集。
S220、计算两两文本分类标注数据之间的语义相似度。
S230、根据所述语义相似度计算结果,构建得到语义相似度矩阵。
其中所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度。
其中,语义相似度矩阵可以是可以有各文本分类标注数据两两之间的语义相似度来进行填充,得到的相似度矩阵。
S240、在所述文本分类标注数据集中,获取一个未处理的目标数据,并标注所述目标数据为已处理状态。
其中,目标数据可以是在文本分类标注数据集选取一个未处理的文本分类标注数据,作为目标处理的数据。
S250、以所述目标数据为起点,查询所述语义相似度矩阵,逐次遍历与所述目标数据的全部密度相连数据。
其中,全部密度相连数据可以是与目标数据所关联的密度相连数据,能够反映出目标数据与其他数据的紧密程度,从而可以判别是否可以进行聚类。
S260、将所述目标数据与各所述密度相连数据共同组成一个聚类簇,并标注各所述密度相连数据的已处理状态。
S270、判断在全部文本分类标注数据中是否存在未处理的目标数据,若是,则返回执行S240,若否,则执行S280;
S280、在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇。
S290、根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
示例性的,首先可以获取到待去噪的文本分类标注数据集,假设包含100个文本分类标注数据,分别计算两两文本分类标注数据之间的语义相似度,从而可以得到语义相似度矩阵。假设在100个文本分类标注数据中存在90个未处理的文本分类标注数据,则在90个未处理的文本分类标注数据中选取一个作为目标数据1,并且标注为已处理状态。以目标数据1为起点,查询语义相似度矩阵,逐次遍历与目标数据的全部密度相连数据,假设存在20个密度相连数据。将目标数据与20个密度相连数据共同组成一个聚类簇1,并分别标注20个密度相连数据的已处理状态。这是剩余69个未处理的目标数据。因此在69个未处理的目标数据选取一个目标数据,同理可以得到剩余的聚类簇。假设处理完毕之后,得到3个聚类簇。
进一步的,分别在3个聚类簇中的每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇。根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
可选的,根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇之后,还包括:将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。
其中,孤立文本分类标注数据可以是进行聚类处理之后,不属于任何一个聚类簇的数据。异常标注数据可以是文本分类标注数据属于异常状态的数据。
示例性的,假设在待去噪的文本分类标注数据集中包含100个文本分类标注数据,进行聚类处理之后,可得到3个聚类簇和5个孤立文本分类标注数据,则将其识别为异常标注数据。
本实施例一个可选的实施例,假设100个文本分类标注数据,可以设置每个聚类簇中至少存在10个文本分类标注数据才可以确定为有效的聚类簇。假设对100个文本分类标注数据进行聚类处理之后,可得到4个聚类簇,聚类簇1中包含20个文本分类标注数据,聚类簇2中包含5个文本分类标注数据,聚类簇3中包含50个文本分类标注数据,聚类簇4中包含25个文本分类标注数据。虽然聚类簇2中的5个文本分类标注数据能够进行聚类,但是由于不满足有效的聚类簇的阈值条件,因此聚类簇2的5个文本分类标注数据识别为异常标注数据。
本发明实施例所提供的技术方案,通过获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,根据所述语义相似度计算结果,构建得到语义相似度矩阵;在所述文本分类标注数据集中,获取一个未处理的目标数据,并标注所述目标数据为已处理状态;以所述目标数据为起点,查询所述语义相似度矩阵,逐次遍历与所述目标数据的全部密度相连数据;将所述目标数据与各所述密度相连数据共同组成一个聚类簇,并标注各所述密度相连数据的已处理状态;返回执行在所述文本分类标注数据集中,获取一个未处理的目标数据的操作,直至完成对全部文本分类标注数据的处理;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,实现了能够有效地对文本分类标注样本进行聚类处理,进而提高了样本去噪的准确率。
实施例三
图3是本发明实施例三提供的一种文本分类标注样本的异常检测装置的结构示意图,本实施例所提供的一种文本分类标注样本的异常检测装置可以通过软件和/或硬件来实现,可配置于终端设备或者服务器中。用来实现本发明实施例中的一种文本分类标注样本的异常检测方法。如图3所示,该装置具体可包括:文本分类标注数据集获取模块310、聚类簇确定模块320、分类子簇确定模块330和异常分类子簇识别模块340。
其中,文本分类标注数据集获取模块310,用于获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
聚类簇确定模块320,用于计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
分类子簇确定模块330,用于在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
异常分类子簇识别模块340,用于根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
本发明实施例所提供的技术方案,通过获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,对文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,解决了由于样本去噪模型识别准确率低而造成工作人员工作量大,以及样本去噪没有解释性说明的问题,实现了能够有效地对文本分类标注样本进行异常检测,提高了样本去噪的准确率,降低了样本去噪的人力成本。
在上述各实施例的基础上,聚类簇确定模块320,可以具体用于:将两两文本分类标注数据分别输入至预先训练的语义相似度模型中,获取所述两两文本分类标注数据之间的语义相似度。
在上述各实施例的基础上,还包括,语义相似度模型训练模块320,可以具体用于:在将两两文本分类标注数据分别输入至预先训练的语义相似度模型中之前,将获取到的两个样本分类标注数据分别输入至参数共享层,得到两个样本分类标注数据分别对应的多个字向量;将第一样本分类标注数据对应的各所述字向量输入至池化层,得到第一样本分类标注数据向量,将第二样本分类标注数据对应的各所述字向量输入至池化层,得到第二样本分类标注数据向量;计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值,得到样本分类标注数据差值向量;拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量,得到样本分类标注数据拼接向量;将样本分类标注数据拼接向量输入至语义分类器中来训练,训练完成之后得到语义相似度模型。
在上述各实施例的基础上,聚类簇确定模块320,可以具体用于:根据所述语义相似度计算结果,构建得到语义相似度矩阵,其中所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度;在所述文本分类标注数据集中,获取一个未处理的目标数据,并标注所述目标数据为已处理状态;以所述目标数据为起点,查询所述语义相似度矩阵,逐次遍历与所述目标数据的全部密度相连数据;将所述目标数据与各所述密度相连数据共同组成一个聚类簇,并标注各所述密度相连数据的已处理状态;返回执行在所述文本分类标注数据集中,获取一个未处理的目标数据的操作,直至完成对全部文本分类标注数据的处理。
在上述各实施例的基础上,还包括,异常标注数据确定模块,可以具体用于:将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。
在上述各实施例的基础上,异常分类子簇识别模块340,可以具体用于:统计在当前分类子簇中文本各分类标注数据的数量,并计算各分类标注数据的数量占所属聚类簇中的数量的占比权重值;判断各占比权重值是否大于预设的占比权重过滤阈值,若否,则将当前分类子簇中文本各分类标注数据识别为异常分类子簇。
在上述各实施例的基础上,还包括,解释标签添加模块,可以具体用于:在根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇之后,分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签,并反馈给用户。
上述文本分类标注样本的异常检测装置可执行本发明任意实施例所提供的文本分类标注样本的异常检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四提供的一种计算机设备的结构示意图。如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本分类标注样本的异常检测方法对应的程序指令/模块(例如,文本分类标注数据集获取模块310、聚类簇确定模块320、分类子簇确定模块330和异常分类子簇识别模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本分类标注样本的异常检测方法,该方法包括:
获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可读存储介质,所述计算机可读指令在由计算机处理器执行时用于执行一种文本分类标注样本的异常检测方法,该方法包括:获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
当然,本发明实施例所提供的一种包含计算机可读存储介质,其计算机可读指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本分类标注样本的异常检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本分类标注样本的异常检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本分类标注样本的异常检测方法,其特征在于,包括:
获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
2.根据权利要求1所述的方法,其特征在于,计算两两文本分类标注数据之间的语义相似度,包括:
将两两文本分类标注数据分别输入至预先训练的语义相似度模型中,获取所述两两文本分类标注数据之间的语义相似度。
3.根据权利要求2所述的方法,其特征在于,在将两两文本分类标注数据分别输入至预先训练的语义相似度模型中之前,还包括:
将获取到的两个样本分类标注数据分别输入至参数共享层,得到两个样本分类标注数据分别对应的多个字向量;
将第一样本分类标注数据对应的各所述字向量输入至池化层,得到第一样本分类标注数据向量,将第二样本分类标注数据对应的各所述字向量输入至池化层,得到第二样本分类标注数据向量;
计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值,得到样本分类标注数据差值向量;
拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量,得到样本分类标注数据拼接向量;
将样本分类标注数据拼接向量输入至语义分类器中来训练,训练完成之后得到语义相似度模型。
4.根据权利要求1所述的方法,其特征在于,根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇,包括:
根据所述语义相似度计算结果,构建得到语义相似度矩阵,其中所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度;
在所述文本分类标注数据集中,获取一个未处理的目标数据,并标注所述目标数据为已处理状态;
以所述目标数据为起点,查询所述语义相似度矩阵,逐次遍历与所述目标数据的全部密度相连数据;
将所述目标数据与各所述密度相连数据共同组成一个聚类簇,并标注各所述密度相连数据的已处理状态;
返回执行在所述文本分类标注数据集中,获取一个未处理的目标数据的操作,直至完成对全部文本分类标注数据的处理。
5.根据权利要求4所述的方法,其特征在于,根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇之后,还包括:
将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇,包括:
统计在当前分类子簇中文本各分类标注数据的数量,并计算各分类标注数据的数量占所属聚类簇中的数量的占比权重值;
判断各占比权重值是否大于预设的占比权重过滤阈值,若否,则将当前分类子簇中文本各分类标注数据识别为异常分类子簇。
7.根据权利要求1-5任一项所述的方法,其特征在于,在根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇之后,还包括:
分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签,并反馈给用户。
8.一种文本分类标注样本的异常检测装置,其特征在于,包括:
文本分类标注数据集获取模块,用于获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
聚类簇确定模块,用于计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
分类子簇确定模块,用于在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
异常分类子簇识别模块,用于根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的文本分类标注样本的异常检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一所述的文本分类标注样本的异常检测方法。
CN202210749204.XA 2022-06-28 2022-06-28 文本分类标注样本的异常检测方法、装置、设备及介质 Pending CN115098679A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210749204.XA CN115098679A (zh) 2022-06-28 2022-06-28 文本分类标注样本的异常检测方法、装置、设备及介质
PCT/CN2022/118488 WO2024000822A1 (zh) 2022-06-28 2022-09-13 文本分类标注样本的异常检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210749204.XA CN115098679A (zh) 2022-06-28 2022-06-28 文本分类标注样本的异常检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115098679A true CN115098679A (zh) 2022-09-23

Family

ID=83295445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210749204.XA Pending CN115098679A (zh) 2022-06-28 2022-06-28 文本分类标注样本的异常检测方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN115098679A (zh)
WO (1) WO2024000822A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757807A (zh) * 2023-08-14 2023-09-15 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907436B2 (en) * 2000-10-27 2005-06-14 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University Method for classifying data using clustering and classification algorithm supervised
CN110928862A (zh) * 2019-10-23 2020-03-27 深圳市华讯方舟太赫兹科技有限公司 数据清洗方法、数据清洗设备以及计算机存储介质
CN114398350A (zh) * 2021-12-30 2022-04-26 以萨技术股份有限公司 训练数据集的清洗方法、装置及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757807A (zh) * 2023-08-14 2023-09-15 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法
CN116757807B (zh) * 2023-08-14 2023-11-14 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法

Also Published As

Publication number Publication date
WO2024000822A1 (zh) 2024-01-04

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109445936B (zh) 一种云计算负载聚类方法、系统及电子设备
CN111898739A (zh) 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
CN110780965A (zh) 基于视觉的流程自动化方法、设备及可读存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN116132263B (zh) 告警解决方案推荐方法、装置、电子设备及存储介质
CN112528022A (zh) 主题类别对应的特征词提取和文本主题类别识别方法
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN113723555A (zh) 异常数据的检测方法及装置、存储介质、终端
CN112685374B (zh) 日志分类方法、装置及电子设备
EP4227855A1 (en) Graph explainable artificial intelligence correlation
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN114741483B (zh) 数据识别的方法和装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN114663760A (zh) 模型训练的方法、目标检测方法、存储介质及计算设备
CN114492366A (zh) 二进制文件的分类方法、计算设备及存储介质
CN113283396A (zh) 目标对象的类别检测方法、装置、计算机设备和存储介质
CN114020916A (zh) 文本分类方法、装置、存储介质和电子设备
CN111737371A (zh) 可动态预测的数据流量检测分类方法及装置
CN114077663A (zh) 应用日志的分析方法及装置
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN114238740A (zh) 一种确定代理主体代理品牌的方法及装置
CN111475380A (zh) 一种日志分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination