CN115905528A - 具有时序特征的事件多标签分类方法、装置及电子设备 - Google Patents

具有时序特征的事件多标签分类方法、装置及电子设备 Download PDF

Info

Publication number
CN115905528A
CN115905528A CN202211406621.0A CN202211406621A CN115905528A CN 115905528 A CN115905528 A CN 115905528A CN 202211406621 A CN202211406621 A CN 202211406621A CN 115905528 A CN115905528 A CN 115905528A
Authority
CN
China
Prior art keywords
label
data
word
unlabeled
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211406621.0A
Other languages
English (en)
Inventor
余梓飞
朵思惟
张艳丽
刘双勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huizhi Xingyuan Information Technology Co ltd
Original Assignee
Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Huizhi Xingyuan Information Technology Co ltd filed Critical Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority to CN202211406621.0A priority Critical patent/CN115905528A/zh
Publication of CN115905528A publication Critical patent/CN115905528A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的一种具有时序特征的事件多标签分类方法、装置及电子设备,将无标签事件输入当前嵌入模型进行嵌入,通过更新的当前嵌入模型能够更好的对无标签事件进行特征提取,再对嵌入得到的第一向量表示进行聚类得到包含多个第一类别标签的已标注数据和第一未标注数据,采用注意力机制得到每个第一类别标签对应的词标签和第一未标注数据对应的自标签,基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,完成对于无标签事件的分类。本申请提供的分类方法能够展现无标签事件分布随时间推移的演变,可应用于不同领域及场景,具有很好的迁移性。

Description

具有时序特征的事件多标签分类方法、装置及电子设备
技术领域
本申请涉及事件分类技术领域,尤其涉及一种具有时序特征的事件多标签分类方法、装置及电子设备。
背景技术
随着信息化、网格化、智能化在社会治理和基层治理的不断推进,各类社会治理平台每天都会采集到海量的社会治理事件。如何有效利用采集到的事件,从中挖掘出社会治理中的主要矛盾、各类事件之间的关联以及待治理的主要矛盾随着时间推移的变化趋势,基于现状及发展趋势从源头上化解矛盾是当前社会治理智能化亟需解决的问题。
相关技术中,对于大量社会治理事件的分析挖掘主要采用文本分类或聚类方法。但是,文本分类方法的分类标签是固定的,导致文本分类方法的时效性较差。聚类方法虽然具有时效性,但是聚类标签一般为数字标签,采用统计学习的方法生成的标签不能准确描述同一簇内数据的含义,导致分类效果较差。
发明内容
有鉴于此,本申请的目的在于提出一种具有时序特征的事件多标签分类方法、装置及电子设备。
基于上述目的,本申请的第一方面提供了一种具有时序特征的事件多标签分类方法,包括:
获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示;
采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据;
对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签;
基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。
可选的,所述采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签,包括:
对于所述第一类别标签对应的全部已标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,按照注意力值从大到小的顺序选取前N个注意力值对应的字作为该句子的候选字集合;基于所述候选字集合确定该句子对应的候选关键词集合,其中,N为正整数;
根据所述第一类别标签对应的全部已标注数据中的全部句子对应的候选关键词集合构建关键词词频表;
按照词频数值从大到小的顺序从所述关键词词频表中选取前M个词频对应的关键词作为与所述第一类别标签对应的词标签,其中,M为正整数。
可选的,所述采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签,包括:
对于所述第一未标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,基于全部注意力值确定该句子的自标签。
可选的,所述基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,包括:
响应于所述无标签事件为所述已标注数据,从所述已标注数据对应的第一类别标签的词标签中选取至少一个关键词作为所述无标签事件的分类标签;或,
响应于所述无标签事件为所述第一未标注数据,将所述第一未标注数据对应的自标签作为所述无标签事件的分类标签。
可选的,响应于在预设时间区间内,所述第一未标注数据的数量与所述无标签事件的数量的比值超过第一预设阈值,基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,其中,所述当前分类模型包括所述当前嵌入模型和叠加在所述当前嵌入模型后的分类层。
可选的,所述基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,包括:
采用聚类算法对全部所述第一未标注数据进行聚类,得到包含多个第二类别标签的已标注数据;
基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据;
基于所述训练样本数据对所述当前分类模型进行训练,以得到更新的当前分类模型。
可选的,所述第二预设阈值包括持久度阈值和概率阈值,所述基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据,包括:
将概率值超过所述概率阈值且对应的第二类别标签的持久度超过所述持久度阈值的已标注数据作为所述训练样本数据。
可选的,在采用聚类算法对全部所述第一向量表示进行聚类之前,包括:
采用降维算法对所述第一向量表示进行降维处理。
基于同一发明构思,本申请的第二方面提供了一种具有时序特征的事件多标签分类装置,包括:
嵌入模块,被配置为获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示;
聚类模块,被配置为采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据;
标注模块,被配置为对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签;
确定模块,被配置为基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。
基于同一发明构思,本申请的第三方面还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
从上面所述可以看出,本申请提供的一种具有时序特征的事件多标签分类方法、装置及电子设备,将无标签事件输入当前嵌入模型进行嵌入,通过更新的当前嵌入模型能够更好的对无标签事件进行特征提取,再对嵌入得到的第一向量表示进行聚类得到包含多个第一类别标签的已标注数据和第一未标注数据,采用注意力机制得到每个第一类别标签对应的词标签和第一未标注数据对应的自标签,基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,完成对于无标签事件的分类。与监督学习算法相比,本申请提供的分类方法无需人工标注数据,大大降低了人力成本。同时,通过聚类得到的多个第一类别标签不局限于传统预设分类标签的数量和种类,并且能够根据无标签事件的自身特征进行较为准确的词标注。本申请提供的分类方法能够展现无标签事件分布随时间推移的演变,可应用于不同领域及场景,具有很好的迁移性。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的具有时序特征的事件多标签分类方法的流程示意图;
图2为本申请实施例的词标签的确定方法的流程示意图;
图3为本申请实施例的更新前后的嵌入模型的注意力分布示意图;
图4为本申请实施例的对当前分类模型进行训练的流程示意图;
图5为本申请实施例的具有时序特征的事件多标签分类方法的流程图;
图6为本申请实施例的具有时序特征的事件多标签分类装置的结构示意图;
图7为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
根据背景技术所述,目前,对于大量社会治理事件的分析挖掘主要采用文本分类或聚类的方法将同类型事件归为一类,然后分类别进行处理。但是,文本分类和聚类方法分别存在一定的缺陷。其中,文本分类方法存在的缺陷如下:【1】文本分类的框架主要基于给定的分类标签,无法识别新类别事件,不具有时效性;【2】主要基于监督学习,需要大量的标注数据,人力成本高。文本聚类方法存在的缺陷如下:【1】相比于文本分类方法,文本聚类方法虽然可以识别新类别事件,具有时效性,但每次都需要对全部数据进行运算,当数据累积到很大数量级时,单次聚类操作耗时长,在合理可接纳的时间范围内无法完成;【2】聚类后得到的簇只具有抽象的数字标签,将其转换为有意义的文字标签时一般采用统计学习的方法基于该簇事件文本的词频生成标签,得到的标签准确性差、无法概括该簇全部数据的含义。分类方法和聚类方法共同的缺陷在于:【1】每个事件被强制划分到一个类别标签下,对于处理某些可能同时具有多个类别标签属性的事件具有一定的局限性;【2】每个标签被视为独立的个体,未考虑到标签之间的语义关联。
有鉴于此,本申请针对现有技术的不足,提供了一种具有时序特征的事件多标签分类方法、装置及电子设备。该方法融合了基于预训练语言模型的句子嵌入算法,降维算法,层次聚类算法,注意力机制等人工智能自然语言处理领域的算法,有效解决了多类别分类框架处理同一事件无法标注多个类别标签的局限性,能够展现事件分布随时间推移的变化,具有时序特征,并且完全无需人工标注数据,解放人力的同时也具有很好的迁移性,能够不依赖于使用场景的语料,灵活切换到不同的场景。针对生成的聚类标签对于所在簇语义描述准确性的问题,本申请采用基于注意力机制直接从聚类的隐空间解码的方式得到聚类标签。这种方式可以直接从隐空间学习到聚类特征,并将该类别的潜在语义特征和关键词建立自然映射,通过此种方式得到的关键词相比于传统的统计机器学习tf-idf等算法能够更加吻合其所在类别的语义特征。
以下结合附图来详细说明本申请的实施例。
本申请提供了一种具有时序特征的事件多标签分类方法,参考图1,包括以下步骤:
步骤102、获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示。
具体的,无标签事件为未分类的事件,当前的多个无标签事件可以为当天收集的多个待分类的社会治理事件,社会治理事件也可为其他领域的待分类事件,此处对于事件的领域不作具体限制。嵌入模型是预先构建的,且嵌入模型是持续更新的,在获取到多个无标签事件后,将无标签事件输入最近更新得到的当前嵌入模型中,通过嵌入模型对无标签事件进行特征提取,经由当前嵌入模型输出每个无标签事件的第一向量表示。
步骤104、采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据。
在一些实施例中,在采用聚类算法对全部所述第一向量表示进行聚类之前,包括:采用降维算法对所述第一向量表示进行降维处理。通过当前嵌入模型输出的第一向量表示是高维向量表示。由于高维空间的稀疏性以及最近邻特性,高维空间中根本不存在数据团簇,会将每一条数据都视为独立的一类,因此直接对高维数据进行聚类效果一般很差,需要首先对数据进行降维处理。本实施例使用基于统一流形逼近和投影的降维算法UMAP对得到的高维向量进行降维,得到低维的句子嵌入向量。
进一步的,将经过降维处理的第一向量表示进行聚类,本实施例中采用基于密度的聚类算法HDBSCAN对全部的第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据。其中,第一类别标签为通过聚类算法聚类得到的数字标签,示例性的,数字标签可以为1、2、3等。第一类别标签的数量为多个,该数量由无标签事件的本身语义决定。每个第一类别标签对应聚类得到的一个簇,表示该簇内的数据语义相似。第一未标注数据为在本次聚类过程中标记为“其他”类别的数据,“其他”类别的数据与其他数据相似度较低,聚类过程中被分配在“其他”类别中。
步骤106、对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签。
具体的,采用嵌入模型中的注意力机制分别对第一类别标签对应的全部已标注数据和第一未标注数据进行词标注,嵌入模型在输出第一向量表示的同时,还会输出对于每个事件语句中每个字的注意力值,基于全部注意力值计算得到每个事件语句对应的关键词,基于每个语句的关键词进而确定第一类别标签的词标签和第一未标注数据的自标签。相比于传统的统计机器学习算法,通过注意力机制能够直接从聚类的隐空间以解码的方式得到聚类后的词标签,使该词标签更加吻合所在类别的语义特征。
步骤108、基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。所述词标签对应第一类别标签,词标签可以包括若干个关键词,若干个关键词为在第一类别标签对应的簇的全部事件中出现频率较高的关键词,也即表示该簇可以对应包含多个关键词,确定每个事件的分类标签时,从词标签中选取至少一个关键词作为无标签事件的分类标签,打破了传统分类方法中每个事件只能对应一个标签的现象。如果无标签事件在聚类过程中被标记为“其他”类别,没有对应的第一类别标签,则采用注意力机制生成自标签作为该无标签事件的分类标签。
基于上述步骤102至步骤108可知,本申请提供的一种具有时序特征的事件多标签分类方法,将无标签事件输入当前嵌入模型进行嵌入,通过更新的当前嵌入模型能够更好的对无标签事件进行特征提取,再对嵌入得到的第一向量表示进行聚类得到包含多个第一类别标签的已标注数据和第一未标注数据,采用注意力机制得到每个第一类别标签对应的词标签和第一未标注数据对应的自标签,基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,完成对于无标签事件的分类。与监督学习算法相比,本申请提供的分类方法无需人工标注数据,大大降低了人力成本。同时,通过聚类得到的多个第一类别标签不局限于传统预设分类标签的数量和种类,并且能够根据无标签事件的自身特征进行较为准确的词标注。本申请提供的分类方法能够展现无标签事件分布随时间推移的演变,可应用于不同领域及场景,具有很好的迁移性。
在一些实施例中,参考图2,所述采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签,包括:
步骤202、对于所述第一类别标签对应的全部已标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,按照注意力值从大到小的顺序选取前N个注意力值对应的字作为该句子的候选字集合;基于所述候选字集合确定该句子对应的候选关键词集合,其中,N为正整数。
采用嵌入模型输出无标签事件的第一向量表示时,嵌入模型同时输出了对于事件语句中每个字的注意力值,示例性的,输入当前嵌入模型的无标签事件语句为“小区有人遛狗不栓绳”,其中,对于每个字的注意力值分别为,“小”:1.2826、“区”:1.2883、“有”:4.0910、“人”:4.2800、“遛”:14.7049、“狗”:47.8593、“不”:4.2378、“拴”:8.2129、“绳”:7.3051,“遛”和“狗”这两个字的注意力值最高,其次是“栓”和“绳”,因此,将“遛”、“狗”、“栓”、“绳”作为候选字集合,本实施例中,N取值为4。由于候选字集合中包含候选字“遛”、“狗”、“栓”、“绳”,映射为关键词则为“遛狗”和“栓绳”,也即关键词集合包含“遛狗”和“栓绳”两个词。
步骤204、根据所述第一类别标签对应的全部已标注数据中的全部句子对应的候选关键词集合构建关键词词频表。根据步骤202得到第一类别标签中每个已标注数据的关键词集合后,将全部关键词集合进行合并去重,得到关键词词频表,词频表中每个关键词的词频为其在全部关键词集合中出现的次数。
步骤206、按照词频数值从大到小的顺序从所述关键词词频表中选取前M个词频对应的关键词作为与所述第一类别标签对应的词标签,其中,M为正整数。示例性的,本实施例中M取值为5,也即选取前5个词频数值较高的关键词作为第一类别标签对应的词标签,示例性的,选取得到的词标签可以为:遛狗/拴绳/狗/大小便/狗屎,也即第一类别标签对应的簇中的全部已标注数据的词标签包含5个关键词。
基于上述步骤202至步骤206,确定了与每个第一类别标签对应的词标签。
在一些实施例中,所述采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签,包括:
对于所述第一未标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,基于全部注意力值确定该句子的自标签。
与前述词标签的确定过程相似,确定自标签时,通过无标签事件语句中每个字的注意力值进行计算得到。将该语句中注意力数值较高的字作为候选字集合,再将候选字集合中的全部字映射为关键词,得到关键词集合,该关键词集合即为第一未标注数据对应的自标签。
在一些实施例中,所述基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,包括:
响应于所述无标签事件为所述已标注数据,从所述已标注数据对应的第一类别标签的词标签中选取至少一个关键词作为所述无标签事件的分类标签;或,
响应于所述无标签事件为所述第一未标注数据,将所述第一未标注数据对应的自标签作为所述无标签事件的分类标签。
具体的,确定了每个第一类别标签对应的词标签后,如果无标签事件为已标注数据,说明在聚类的过程中该数据被分配到一个数字类别中,存在一个对应的第一类别标签,由于词标签包含至少一个关键词,词标签中的关键词未必全都出现在无标签事件中,因此,在给无标签事件确定分类标签时,从词标签中选取出现在无标签事件中的关键词作为该无标签事件的分类标签,同样,分类标签的个数至少为一个。
需要说明的是,无标签事件中可能不存在任何一个词标签中的关键词,例如,无标签事件为“请问现在想办养犬证怎么办理?”,在聚类的过程中,由于是基于第一向量表示进行聚类,第一向量表示中隐含了关于“狗”的信息(无标签事件中存在“犬”字),因此将该无标签事件分配至一个簇中,该簇对应的词标签为:遛狗/拴绳/狗/大小便/狗屎,无标签事件中不包含任何一个词标签中的关键词,对于这种情况,通过注意力机制确定该无标签事件的关键词作为分类标签即可,采用注意力机制确定的无标签事件语句“请问现在想办养犬证怎么办理?”的分类标签为“犬”。
如果无标签事件为第一未标注数据,则直接将第一未标注数据的自标签作为无标签事件的分类标签。
在一些实施例中,响应于在预设时间区间内,所述第一未标注数据的数量与所述无标签事件的数量的比值超过第一预设阈值,基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,其中,所述当前分类模型包括所述当前嵌入模型和叠加在所述当前嵌入模型后的分类层。
具体的,当前嵌入模型是持续更新的,也即每隔一段时间对嵌入模型更新一次。预设时间区间可以为7天、10天或一个月等等。具体可以根据每天新增的无标签事件的数量和类型决定,如果数量较多且变化较快,可以将预设时间区间缩短,以提升嵌入模型的更新速率,能够更好的对无标签事件进行特征提取,将句意相似的句子输出距离相近的嵌入向量,句意不同的句子输出距离较远的嵌入向量。当预设时间区间内的全部第一未标注数据与预设时间区间内的全部无标签事件的数量的比值超过第一预设阈值,说明在预设时间区间内,通过聚类算法分配至“其他”类别的数据累计到一定值,聚类算法对这些“其他”数据的聚类效果不理想,需要对当前嵌入模型进行调整,示例性的,本实施例中的第一预设阈值为10%。采用预设时间区间内的全部第一未标注数据对当前分类模型进行训练,调整分类模型的参数,其中,当前分类模型为在当前嵌入模型后叠加分类层形成的模型,通过更新当前分类模型的参数同时更新了当前嵌入模型的参数。得到更新的分类模型后,去除分类层,即可得到更新的当前嵌入模型。经过更新后的嵌入模型的注意力分布更倾向于对和本类别相关的字给出更高的得分,而更新前的注意力更倾向于分散到不同的关键词上,图3示出了更新前后的嵌入模型的注意力分布,可以明显看出,更新前,注意力分散至无标签事件的每个字,更新后,注意力明显更加集中在“犬”字。
在一些实施例中,所述基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,参考图4,包括以下步骤:
步骤402、采用聚类算法对全部所述第一未标注数据进行聚类,得到包含多个第二类别标签的已标注数据。
具体的,对于预设时间区间内的全部第一未标注数据进行聚类,采用基于密度的聚类算法HDBSCAN进行聚类,本领域技术人员可以根据实际需求选取其他密度聚类算法聚类,此处不做具体限制。聚类后得到了包含多个第二类别标签的已标注数据,所述第二类别标签为数字标签。
步骤404、基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据。
由于已标注数据需要用于后续分类模型的训练,对于数据的质量要求相对较高。密度聚类算法最终输出的所有类别中存在部分质量较低的类别,并且在每个类别内,存在质量较低的数据,因此,需要进行数据筛选,最终只保留高质量的已标注数据对分类模型进行训练。聚类算法在输出每条数据的第二类别标签的同时,还可以输出每个团簇类别的持久度和每条数据属于其所在团簇类别的概率。将每个团簇类别的持久度和属于其所在团簇类别的概率分别与第二预设阈值进行比对,将满足第二预设阈值的已标注数据作为训练样本数据。
步骤406、基于所述训练样本数据对所述当前分类模型进行训练,以得到更新的当前分类模型。
将选取得到的质量较高的训练样本数据对当前分类模型进行训练,得到更新的当前分类模型。
在一些实施例中,所述第二预设阈值包括持久度阈值和概率阈值,所述基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据,包括:
将概率值超过所述概率阈值且对应的第二类别标签的持久度超过所述持久度阈值的已标注数据作为所述训练样本数据。
筛选训练样本数据时,需要借助第二预设阈值进行筛选。第二预设阈值具体包括持久度阈值和概率阈值,持久度数值用于表征该团簇的质量,质量高的团簇中的数据基本属于同一类别,质量低的团簇中的数据则分布较散,类别不统一,持久度超过持久度阈值,表示该团簇质量较高,该团簇中的已标注数据质量较高。已标注数据的概率表示在其所在团簇内的置信度,置信度越高表明数据属于该团簇的可能性越大,概率超过概率阈值时,表示该数据为高质量数据。将同时满足持久度阈值和概率阈值的数据作为训练样本数据,提升训练样本数据的质量,进而提升嵌入模型的性能。
在一些实施例中,本申请提供的具有时序特征的事件多标签分类方法还可通过以下方式进行描述。图5示出了具有时序特征的事件多标签分类方法的流程图,在时间节点为0时,基于无标签初始数据集0经过分类模型标注数据自动生成模块10对无标签初始数据集0进行标注,得到具有新标签的标注数据。无标签初始数据集0可以理解为历史无标签数据(相当于前述实施例中的历史无标签事件),分类模型标注数据自动生成模块10用于对数据进行聚类以生成数字标签,并筛选高质量数据,最终输出具有新标签的标注数据。采用具有新标签的标注数据对多类别分类模型进行训练,得到多类别分类模型0。再通过基于多类别分类模型0的多标签自动分类模块20对无标签初始数据集0进行分类,得到无标签初始数据集0对应的类标签数据0和自标签数据0。基于多类别分类模型0的多标签自动分类模块20是采用多类别分类模型0的嵌入层对无标签初始数据集0进行嵌入,得到对应的向量表示,采用自注意力机制对向量表示进行计算,以得到类标签数据0和自标签数据0,类标签数据相当于前述实施例中的词标签,词标签生成与自标签生成过程同前述实施例相同,此处不再赘述。在时间节点1至时间节点n的范围内,对于每一个时间节点新增的数据集,均通过基于多类别分类模型0的多标签自动分类模块20输出相应的类标签数据和自标签数据,当时间节点1至时间节点n之间的自标签数据累计到一定数量时,也即累计的自标签数据的数量与无标签数据的数量的比值超过预设阈值时,基于自标签数据集1-n采用分类模型标注数据自动生成模块10对自标签数据集1-n进行标注,得到具有新标签的标注数据。采用具有新标签的标注数据对当前多类别分类模型进行训练,得到更新的多类别分类模型1。在时间节点n+1至时间节点n+m的时间范围内,对于每一个时间节点新增的数据集,均通过基于多类别分类模型1的多标签自动分类模块30输出相应的类标签数据和自标签数据,之后重复上述过程对多类别分类模型进行训练,更新多类别分类模型,多类别分类模型的更新是持续进行的,后续每个预设时间范围内,如果计的自标签数据的数量与无标签数据的数量的比值超过预设阈值,均对多类别分类模型进行更新。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种具有时序特征的事件多标签分类装置。
参考图6,所述具有时序特征的事件多标签分类装置,包括:
嵌入模块602,被配置为获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示;
聚类模块604,被配置为采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据;
标注模块606,被配置为对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签;
确定模块608,被配置为基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。
在一些实施例中,所述标注模块606还被配置为,对于所述第一类别标签对应的全部已标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,按照注意力值从大到小的顺序选取前N个注意力值对应的字作为该句子的候选字集合;基于所述候选字集合确定该句子对应的候选关键词集合,其中,N为正整数;
根据所述第一类别标签对应的全部已标注数据中的全部句子对应的候选关键词集合构建关键词词频表;
按照词频数值从大到小的顺序从所述关键词词频表中选取前M个词频对应的关键词作为与所述第一类别标签对应的词标签,其中,M为正整数。
在一些实施例中,所述标注模块606还被配置为,对于所述第一未标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,基于全部注意力值确定该句子的自标签。
在一些实施例中,确定模块608还被配置为,响应于所述无标签事件为所述已标注数据,从所述已标注数据对应的第一类别标签的词标签中选取至少一个关键词作为所述无标签事件的分类标签;或,
响应于所述无标签事件为所述第一未标注数据,将所述第一未标注数据对应的自标签作为所述无标签事件的分类标签。
在一些实施例中,还包括更新模块610,被配置为响应于在预设时间区间内,所述第一未标注数据的数量与所述无标签事件的数量的比值超过第一预设阈值,基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,其中,所述当前分类模型包括所述当前嵌入模型和叠加在所述当前嵌入模型后的分类层。
在一些实施例中,所述更新模块610还被配置为,采用聚类算法对全部所述第一未标注数据进行聚类,得到包含多个第二类别标签的已标注数据;
基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据;
基于所述训练样本数据对所述当前分类模型进行训练,以得到更新的当前分类模型。
在一些实施例中,所述更新模块610还被配置为,将概率值超过所述概率阈值且对应的第二类别标签的持久度超过所述持久度阈值的已标注数据作为所述训练样本数据。
在一些实施例中,在采用聚类算法对全部所述第一向量表示进行聚类之前,包括:采用降维算法对所述第一向量表示进行降维处理。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的具有时序特征的事件多标签分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的具有时序特征的事件多标签分类方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的具有时序特征的事件多标签分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的具有时序特征的事件多标签分类方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的具有时序特征的事件多标签分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种具有时序特征的事件多标签分类方法,其特征在于,包括:
获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示;
采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据;
对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签;
基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。
2.根据权利要求1所述的方法,其特征在于,所述采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签,包括:
对于所述第一类别标签对应的全部已标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,按照注意力值从大到小的顺序选取前N个注意力值对应的字作为该句子的候选字集合;基于所述候选字集合确定该句子对应的候选关键词集合,其中,N为正整数;
根据所述第一类别标签对应的全部已标注数据中的全部句子对应的候选关键词集合构建关键词词频表;
按照词频数值从大到小的顺序从所述关键词词频表中选取前M个词频对应的关键词作为与所述第一类别标签对应的词标签,其中,M为正整数。
3.根据权利要求1所述的方法,其特征在于,所述采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签,包括:
对于所述第一未标注数据中的每个句子,采用所述嵌入模型的注意力机制得到该句子中的每个字的注意力值,基于全部注意力值确定该句子的自标签。
4.根据权利要求1所述的方法,其特征在于,所述基于所述词标签和所述自标签确定每个所述无标签事件的分类标签,包括:
响应于所述无标签事件为所述已标注数据,从所述已标注数据对应的第一类别标签的词标签中选取至少一个关键词作为所述无标签事件的分类标签;或,
响应于所述无标签事件为所述第一未标注数据,将所述第一未标注数据对应的自标签作为所述无标签事件的分类标签。
5.根据权利要求1所述的方法,其特征在于,还包括:
响应于在预设时间区间内,所述第一未标注数据的数量与所述无标签事件的数量的比值超过第一预设阈值,基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,其中,所述当前分类模型包括所述当前嵌入模型和叠加在所述当前嵌入模型后的分类层。
6.根据权利要求5所述的方法,其特征在于,所述基于全部所述第一未标注数据对当前分类模型进行训练,以得到更新的当前分类模型,包括:
采用聚类算法对全部所述第一未标注数据进行聚类,得到包含多个第二类别标签的已标注数据;
基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据;
基于所述训练样本数据对所述当前分类模型进行训练,以得到更新的当前分类模型。
7.根据权利要求6所述的方法,其特征在于,所述第二预设阈值包括持久度阈值和概率阈值,所述基于包含多个第二类别标签的已标注数据和第二预设阈值,确定训练样本数据,包括:
将概率值超过所述概率阈值且对应的第二类别标签的持久度超过所述持久度阈值的已标注数据作为所述训练样本数据。
8.根据权利要求1所述的方法,其特征在于,在采用聚类算法对全部所述第一向量表示进行聚类之前,包括:
采用降维算法对所述第一向量表示进行降维处理。
9.一种具有时序特征的事件多标签分类装置,其特征在于,包括:
嵌入模块,被配置为获取当前的多个无标签事件,将多个所述无标签事件输入至当前嵌入模型,经由所述当前嵌入模型输出每个所述无标签事件对应的第一向量表示;
聚类模块,被配置为采用聚类算法对全部所述第一向量表示进行聚类,得到包含多个第一类别标签的已标注数据和第一未标注数据;
标注模块,被配置为对于每个第一类别标签,采用所述嵌入模型的注意力机制对该第一类别标签对应的全部已标注数据进行词标注,得到与该第一类别标签对应的词标签;以及,采用所述嵌入模型的注意力机制对所述第一未标注数据进行词标注,得到所述第一未标注数据对应的自标签;
确定模块,被配置为基于所述词标签和所述自标签确定每个所述无标签事件的分类标签。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
CN202211406621.0A 2022-11-10 2022-11-10 具有时序特征的事件多标签分类方法、装置及电子设备 Pending CN115905528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211406621.0A CN115905528A (zh) 2022-11-10 2022-11-10 具有时序特征的事件多标签分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211406621.0A CN115905528A (zh) 2022-11-10 2022-11-10 具有时序特征的事件多标签分类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115905528A true CN115905528A (zh) 2023-04-04

Family

ID=86488974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211406621.0A Pending CN115905528A (zh) 2022-11-10 2022-11-10 具有时序特征的事件多标签分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115905528A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701907A (zh) * 2023-05-31 2023-09-05 西安工业大学 一种基于自适应图扩散的判别多标签特征选择方法
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701907A (zh) * 2023-05-31 2023-09-05 西安工业大学 一种基于自适应图扩散的判别多标签特征选择方法
CN116701907B (zh) * 2023-05-31 2023-12-08 西安工业大学 一种基于自适应图扩散的判别多标签特征选择方法
CN116824275A (zh) * 2023-08-29 2023-09-29 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备
CN116824275B (zh) * 2023-08-29 2023-11-17 青岛美迪康数字工程有限公司 一种实现智能模型优化的方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
US11593458B2 (en) System for time-efficient assignment of data to ontological classes
CN109416705A (zh) 利用语料库中可用的信息用于数据解析和预测
CN115905528A (zh) 具有时序特征的事件多标签分类方法、装置及电子设备
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN114186013A (zh) 实体识别模型热更新方法及其装置、设备、介质、产品
Ma et al. Attention-guided deep graph neural network for longitudinal Alzheimer’s disease analysis
CN116205482A (zh) 重点人员风险等级评估方法及相关设备
CN114638914A (zh) 图像生成方法、装置、计算机设备和存储介质
Qin et al. Multi-instance attention network for few-shot learning
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN110941958A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN112712056A (zh) 视频语义分析方法、装置、存储介质及电子设备
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN116049434A (zh) 电力施工安全知识图谱的构建方法、装置及电子设备
CN115204318A (zh) 事件自动层级分类方法及电子设备
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN117033649A (zh) 文本处理模型的训练方法、装置、电子设备及存储介质
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN114417982A (zh) 一种模型训练方法、终端设备及计算机可读存储介质
CN115099344A (zh) 模型训练方法和装置、用户画像生成方法和装置、设备
CN114357177A (zh) 知识超图的生成方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination