CN109918662B - 一种电子资源的标签确定方法、装置和可读介质 - Google Patents

一种电子资源的标签确定方法、装置和可读介质 Download PDF

Info

Publication number
CN109918662B
CN109918662B CN201910160879.9A CN201910160879A CN109918662B CN 109918662 B CN109918662 B CN 109918662B CN 201910160879 A CN201910160879 A CN 201910160879A CN 109918662 B CN109918662 B CN 109918662B
Authority
CN
China
Prior art keywords
label
electronic resource
labeled
tag
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910160879.9A
Other languages
English (en)
Other versions
CN109918662A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910160879.9A priority Critical patent/CN109918662B/zh
Publication of CN109918662A publication Critical patent/CN109918662A/zh
Application granted granted Critical
Publication of CN109918662B publication Critical patent/CN109918662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种电子资源的标签确定方法、装置和可读介质,属于信息处理技术领域,本发明提供的方法及装置中,针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;将相关度满足设定条件的标签标注为所述待标注电子资源的标签,由此实现了快速为待标注电子资源标注标签的目的。

Description

一种电子资源的标签确定方法、装置和可读介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种电子资源的标签确定方法、装置和可读介质。
背景技术
文章标签在互联网内容生态中扮演着不可或缺的角色,好的标签不仅可以让用户迅速获知文章的核心话题,节省用户时间;还可以实现文章的聚合,直达目标用户。此外,文章标签还可以作为文章的重要特征,应用在推荐系统中,为用户推荐感兴趣的文章。而文章撰写完成之后并不是立马就有标签的,需要为文章添加合适的标签,而如何为文章添加合适的标签是提升用户感知体验所必须要解决的问题。
现有的文章标注系统都是基于有监督学习进行标签标注,即:通过大量样本学习标签模型,基于标签模型为文章添加标签,而训练标签模型时需要大量标注数据来线下训练,不仅响应速度慢而且鲁棒性差,尤其当标签之间有较大重叠,或文本噪音较多时,标签模型容易误判;而且标签模型灵活性差,一旦标签提醒变动或者扩展,需要重新训练标签模型。
因此,如何合理且高效地为文章添加标签是值得考虑的问题之一。
发明内容
本发明实施例提供一种电子资源的标签确定方法、装置和可读介质,用以合理且高效地为文章添加标签。
一方面,本发明实施例提供一种电子资源的标签确定方法,包括:
针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;
基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;
将相关度满足设定条件的标签标注为所述待标注电子资源的标签。
另一方面,本发明实施例提供一种电子资源的标签确定装置,包括:
获得单元,用于针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;
确定单元,用于基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;
标签标注单元,用于将相关度满足设定条件的标签标注为所述待标注电子资源的标签。
再一方面,本发明实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的电子资源的标签确定方法。
再一方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的电子资源的标签确定方法。
本发明有益效果:
本发明实施例提供的电子资源的标签确定方法、装置和可读介质,由于本发明中并不是基于现有技术中的训练好的标签模型直接确定待标注电子资源的标签,而是采用标签词典匹配待标注电子资源,然后基于匹配到的标签词构成的标签词集合确定各个标签与待标注电子资源的相关度,进而基于各个标签确定出的相关度确定待标注电子资源的标签,由于无需训练标签模型,其也就不存在现有技术中因标签模型结构复杂而导致的响应速度慢的问题,实现了高效为待标注电子资源标注标签的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的电子资源的标签确定方法的应用场景示意图;
图2为本发明实施例提供的电子资源的标签确定方法的执行逻辑架构图;
图3为本发明实施例提供的电子资源的标签确定方法的流程示意图;
图4为本发明实施例提供的基于“体育”和“财经”的标签词典分别匹配待标注文章得到相应的标签词集合的逻辑架构图;
图5为本发明实施例提供的确定该标签与所述待标注电子资源的相关度的流程示意图之一;
图6为本发明实施例提供的确定该标签与所述待标注电子资源的相关度的流程示意图之二;
图7为本发明实施例提供的根据标注了该标签的电子资源获得该标签的标签词典的流程示意图;
图8a为本发明实施例提供的采用提取的关键词优化该标签的标签词典的流程示意图;
图8b为本发明实施例提供的优化“体育”和“财经”的标签词典的执行逻辑架构图;
图9为本发明实施例提供的获取该标签初始的标签词典的方法流程示意图之一;
图10为本发明实施例提供的获取该标签初始的标签词典的方法流程示意图;
图11为本发明实施例提供的电子资源的标签确定装置的结构示意图;
图12为本发明实施例提供的实施电子资源的标签确定方法的计算装置的结构示意图。
具体实施方式
本发明实施例提供的电子资源的标签确定方法、装置和可读介质,用以合理且高效地为文章添加标签。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了便于理解本发明,本发明涉及的技术术语中:
1、标签,是指电子资源所属的类别和领域等,一个电子资源可以有多个标签,具体取决于标签体系和电子资源内容,而且电子资源的标签体系一般都存在重叠。以电子资源为文章为例进行说明,文章的一级标签有“体育”、“时政”、“娱乐”和“军事”等,且标签为“时政”的文章可能也标注了“军事”标签。
2、文章标注,是指给文章标记上对应的标签。
3、标签词典,跟标签相关的词的集合,为了后续描述更清楚,将标签词典中的词称作标签词。
4、词频,(Term Frequency,TF),是指文章中某个标签词出现的频次。
5、逆文档频率,(Inverse Document Frequency,IDF),用于衡量标签词或短语的罕见性,每一标签词的IDF越大,表明该标签词越罕见。
6、Apriori算法,是一种基于统计的关联度挖掘算法,可以衡量两个或多个统计量的关联性。本发明实施例中,针对差集中的每一关键词,可以利用Apriori算法确定该关键词与所述交集之间的关联度。
7、终端设备,为可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的电子设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)或其它能够实现上述功能的电子设备等。
8、应用程序,为可以完成某项或多项特定工作的计算机程序,它具有可视的显示界面,能与用户进行交互,比如腾讯新闻和微信等都可以称为应用程序。
为了解决现有技术中直接基于标签模型为文章添加标签时因标签模型结构复杂而导致的响应速度较慢的问题,本发明实施例给出了解决方案,参考图2所示的应用场景示意图,用户设备11上安装有能够上传电子资源的应用程序,以电子资源为文章为例进行说明,当用户10基于用户设备11撰写一篇文章时,可以基于用户设备11上传至服务器12,服务器12接收到上述文章后,该文章为没有进行标注的文章,称作待标注文章,然后服务器12可以按照图2所示的执行逻辑架构来为待标注文章添加标签,其中标签词典的初始化过程后续介绍,此处先介绍在获得标签词典后确定待标注文章的标签的流程,即图2中标签词典指向待标注文章所表征的流程,具体为:针对每一标签对应的标签词典,将该标签的标签词典中包含的各个标签词分别与待标注文章进行匹配,由此可以获得匹配到的标签词组成的标签词集合,然后基于每一标签匹配出的标签词集合,确定该标签与待标注文章之间的相关度,基于此可以确定出各个标签与待标注文章的相关度,然后将相关度满足设定条件的标签标注为待标注文章的标签,然后将标注了标签的文章进行发布。由于本发明实施例中标签的标签词典为基于标注了该标签的电子资源获得的,并不是现有的将待标注文章输入到标签模型得到的,因此,直接避免了因标签模型结构复杂而导致的响应速度较慢的问题发生,进而基于标签词典实现了高效且合理地为待标注文章添加标签。
需要说明的是,用户设备11与服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供互联网服务的设备,用户设备11中的应用程序可以为公众号、自媒体和新闻应用程序等等。
为了保证文章标注的准确率,本发明中会对标签词典进行不断优化,具体优化过程为:在为待标注文章标注确定出的标签后,针对该标签,可以基于该标签的标签词典标注了该标签的电子资源中选取相关度满足电子资源筛选条件的电子资源,然后从相关度满足电子资源筛选条件的每一电子资源中提取重要度高于设定值的关键词,并采用提取的关键词优化该标签的标签词典,即图2中待标注文章指向标签词典的流程,这样一来,可以保证标签词典的完备性,进而保证了基于优化更新后的标签词典确定待标注文章的标签的准确率。
在优化标签词典之前,会生成一个标签初始的标签词典,而初始的标签词典生成过程是按照图2中少量有标注文章进行初始化得到标签词典的过程。
在为待标注电子资源标注标签之后,可以基于标注的标签向用户推荐电子资源,这样可以让用户通过标注的标签迅速获知电子资源的核心话题,从而节省用户浏览电子资源的时间;此外,还可以基于标注的标签进行电子资源聚合或者基于标注的标签向用户推荐感兴趣的电子资源等。
下面结合图1所示的应用场景和图2的执行逻辑架构,参考下面各图来描述根据本发明示例性实施方式提供的电子资源的标签确定方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图3所示,为本发明实施例提供的电子资源的标签确定方法的流程示意图,以由服务器实施本发明实施例提供的方法为例进行说明,服务器实施上述方法的过程为:
S31、针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合。
可选地,每个标签的标签词典,是根据标注了该标签的电子资源获得的,后续详细介绍标签词典的获得过程。
具体地,本发明实施例中的电子资源可以但不限于为新闻文章等,且本发明中的标签可以但不限于一级标签,为了描述方便,可以以一级标签为例进行描述。
本步骤中,以待标注电子资源为待标注文章为例进行说明,假设具有“体育”和“财经”这两个标签,记为K1~K2,而标签“Ki”的标签词典记为Ci,则参考图4所示基于“体育”和“财经”的标签词典分别匹配待标注文章得到相应的标签词集合的逻辑架构图,针对每一标签Ki,可以由该标签Ki的标签词典Ci中的标签词去匹配待标注文章,这样就可以确定出待标注文章中包含标签词典Ci中的标签词,将匹配出的这些标签词构成标签Ki的标签词集合Di。
例如,标签“体育K1”的标签词典C1=[短跑,速度,运动员,苏炳添,冠军,冰球],则可以用这4个标签词与待标注文章进行逐一匹配,若匹配到的标签词有短跑、速度和苏炳添,则可以确定出标签“体育K1”的标签词集合D1=[短跑,速度,苏炳添]。
基于上述描述,可以确定出各个标签下匹配出的标签词组成的标签词集合。
具体地,在基于每个标签实施匹配待标注电子资源的过程中,可以进行并行处理,这样可以加快确定出各个标签下匹配得到的标签词集合,进而实现确定待标注电子资源的标签高效性。
此外,本发明中在基于每一标签的标签词典匹配待标注电子资源时,可以利用字典树、哈希等算法确定标签词集合,由于上述算法本身速度比较快,这样可以进一步提高确定出待标注电子资源的标签的速度。
需要说明的是,本发明中的标签词集合为不去重的集合,即同一个标签词可以在标签词集合中出现多次,具体次数与该标签词在待标注电子资源中出现的次数一致。例如,标签词“苏炳添”在待标注电子资源中出现10次,则标签词“苏炳添”也会在该标签词集合中存在10个。
S32、基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度。
实际应用中,由于针对每一标签得到的标签词集合中的标签词既是待标注电子资源中的,也是该标签的标签词典中的,因此,显然标签词集合中标签词越多表明该标签与待标注电子资源越相关,因此基于每一标签得到的标签词集合可以用来衡量该标签与待标注电子资源的相关度。
具体地,可以按照图5所示的流程实施步骤S32,包括以下步骤:
S51、确定该标签的标签词集合中标签词的数量。
S52、根据所述标签词的数量,确定该标签与所述待标注电子资源的相关度。
本发明中该标签与待标注电子资源的相关度与标签词集合中标签词的数量呈正相关,例如,可以将该标签的标签词集合中标签词的数量确定为该标签与待标注电子资源的相关度,这样一来,可以确定出各个标签与待标签电子资源的相关度。
可选地,还可以按照图6所示的流程实施步骤S32,包括以下步骤:
S61、针对该标签的标签词集合中每一标签词,确定该标签词在所述待标注电子资源中出现的频次。
本步骤中,以标签“体育”为例进行说明,若基于标签“体育”得到的标签词集合D1=[苏炳添,短跑,速度,苏炳添],这样,可以确定出D1中各个标签词出现的频次,也即标签词在待标注电子资源中出现的频次,也称词频TF。
S62、确定该标签词的逆文档频率。
具体地,可以按照下述公式确定标签词qj的逆文档频率IDF(qj):
Figure BDA0001984592870000091
N为电子资源库中电子资源的总数;
n(qj)为电子资源库中包含第j个标签词的电子资源的数量;
按照上述公式,可以确定出标签“体验”的标签词集合中各个标签词的逆文档频率。
S63、基于该标签的标签词集合确定出的各个标签词的频次和逆文档频率,确定该标签与所述待标注电子资源的相关度。
具体地,基于该标签的标签词集合确定出的词频和逆文档频率与该标签与待标注电子资源的相关度呈正相关。针对每一标签得到的标签词集合,在确定出标签词集合中每一标签词的词频和逆文档频率后,可以进行求和处理,然后根据求和结果确定该标签与待标注电子资源的相关度,例如,可以将求和结果确定为该标签与待标注电子资源的相关度。可选地,还可以采用其他方法基于词频和逆文档频率确定该标签与待标注电子资源的相关度,具体可以根据实际情况而定。
S33、将相关度满足设定条件的标签标注为所述待标注电子资源的标签。
在基于图5或图6的流程确定出各个标签与待标注电子资源之间的相关度后,可以选取相关度最大或相关度排在前k对应的k个标签确定为待标注电子资源的标签,k可以根据经验值进行设定。在确定出待标注电子资源的标签后,可以将确定出的标签为待标注电子资源进行标注,具体地,当待标注电子资源为待标注新闻文章时,则可以利用函数f(news|dict)=label_news实现为该待标注新闻文章标注确定出的标签。这样一来,服务器可以基于标注后的电子资源进行发布等其他操作。由此,服务器可以快速确定出待标注电子资源的标签,并为待标注电子资源标注确定出的标签,实现了标签标注的高效性。
在介绍完电子资源的标签确定方法之后,接下来对本发明中的标签词典进行介绍:
可选地,针对每一标签,可以按照图7所示的流程根据标注了该标签的电子资源获得该标签的标签词典,包括以下步骤:
S71、从基于该标签的标签词典标注了该标签的电子资源中选取相关度满足电子资源筛选条件的电子资源。
由于基于图3所示的流程可以获知电子资源与标注的标签之间的相关度,这样,可以基于标注该标签的预设时间段内的电子资源,筛选出相关度较高的电子资源,即:筛选出相关度大于预设相关度阈值的电子资源。这样,筛选出标注了该标签的电子资源均是置信度比较高的,进而利用基于置信度比较高的电子资源优化该标签的标签词典,使得基于优化后的标签词典确定待标注电子资源的标签结果更准确。
S72、从所述相关度满足电子资源筛选条件的每一电子资源中提取重要度高于设定值的关键词。
本步骤中,在筛选出标注了该标签的一个或多个电子资源后,可以对每一电子资源,对该电子资源进行分词和滤词处理,得到多个关键词。以电子资源为文章为例进行说明,由于实际应用中,在对文章进行分词处理后,这些词中一般会包括很多停止词,该停止词指的是“啊”、“呀”、“的”和“地”等不具有实际含义的词,故需要对分词后的词进行去除停止词处理,得到多个关键词。
在得到关键词之后,针对每一关键词,可以确定出该关键词的重要度,然后筛选出重要度比较高的关键词,例如,筛选出重要度高于设定值的关键词。
具体地,可以按照下述过程确定电子资源中每一关键词的重要度:首先,确定该关键词的词频,然后确定该关键词的逆文档频率,最后根据该关键词的词频和逆文档频率确定该关键词的重要度。具体实施时,该关键词的词频即为该关键词在电子资源中出现的次数,而该关键词的逆文档频率可以按照上述公式确定,然后将该关键词的词频与逆文档频率之间的差值确定为该关键词的重要度。
S73、采用提取的关键词优化该标签的标签词典。
在基于步骤S72确定出电子资源中重要度比较高的关键词后,可以按照图8a所示的流程实施步骤S73,包括以下步骤:
S81、分别确定提取出的关键词构成的关键词集合和该标签的标签词典之间的差集和交集。
具体地,基于步骤S72提取出标注了该标签的电子资源中比较重要的关键词后,可以将提取出的关键词组成关键词集合,然后将关键词集合与该标签的标签词典进行比对,这样就可以确定出关键词集合与该标签的标签词典之间的差异,即:确定出属于关键词集合但不属于该标签的标签词典的关键词,然后将这些关键词构成差集,从而得到该标签的标签词典所对应的新词集合,这个新词集合即该标签的标签词典的备选集合,可以记为E={e1,e2,e3,……,en}。
同理,可以确定出关键词集合与标签词典的交集,即:即属于关键词集合又属于标签词典的关键词,将这类关键词构成交集,从而得到属于当前标签词典的关键词,将交集记为S=[s1,s2,……,sk]。
具体地,以标签为“体育”和“财经”为例进行说明,参考图8b所示的优化“体育”和“财经”的标签词典的执行逻辑架构图。基于步骤S71可以分别筛选出标注了“体育”的文章后,以基于步骤S72得到的关键词构成的关键词集合为H1=[速滑,速度,运动员,武大靖,冠军,冬奥会]为例,这样,可以确定出H1与“体育”的标签词典C1=[短跑,速度,运动员,苏炳添,冠军,冰球]的差集和交集,即:E1=[速滑,武大靖,冬奥会],S1=[速度,运动员,冠军]。
S82、针对差集中的每一关键词,确定该关键词与所述交集之间的关联度。
本步骤中,针对差集E中每一个关键词,可以利用Apriori算法来确定该关键词与交集S之间的关联度,具体可以参考下述公式:
score(em,S)=sum_n{P(em|sn)+P(em,sn)}
上述公式中,score(em,S)表示差集中第m个关键词与交集S之间的关联度,P(em|sn)表示在电子资源中包含关键词sn的条件下关键词em出现的概率,表征置信度;P(em,sn)表示电子资源中即出现关键词sn又出现关键词em的概率,表征支持度;m为不高于差集中关键词的数量的正整数,n为不高于交集中关键词的数量的正整数。
通过利用上述关联度计算公式可以确定出差集中各个关键词与交集之间的关联度。需要说明的是,在实施上述关联度计算公式时,上述两个概率可以直接用统计量频率来近似。
S83、基于差集中各个关键词的关联度,确定满足更新筛选条件的关键词。
本步骤中,在基于步骤S82确定出标签“体育”对应的差集中各个关键词与交集的关联度之后,可以按照关联度由大到小的顺序进行排序,然后取前M个(TOP M)关联度对应的关键词,将这些关键词确定为满足更新筛选条件的关键词。
S84、将满足更新筛选条件的关键词补入到该标签的标签词典中。
具体地,可以利用函数g(token|dict)=label_token将筛选出的关键词补入到该标签的标签词典中。
这样,通过实施图8a所示的流程,可以实现每个标签的标签词典的动态更新,进而提高了电子资源标注标签的准确率。
需要说明的是,本发明中在优化各个标签的标签词典时,可以采用并行处理的方式,例如,可以根据标签的数量设置相应数量的线程,一个线程对应一个标签,然后每一线程利用图8a所示的方法专门优化该线程对应的标签的标签词典,这样,大大提高了优化标签词典的速度。
可选地,本发明中每一标签都具有初始的标签词典,而初始的标签词典可以基于经验选取一些属于该标签的关键词,然后将这些关键词构成该标签初始的标签词典。
可选地,每一标签初始的标签词典还可以基于预先训练好的标签词典生成模型,从标注了该标签的电子资源中提取的关键词构成,即对标签词典进行初始化,具体可以按照图9所示的流程实施,包括以下步骤:
S91、针对标注了该标签的每一电子资源,对该电子资源进行分词及滤词处理,得到该电子资源的关键词。
本步骤中,本发明选取了少量的标注了该标签的电子资源,然后对每一电子资源进行分词及滤词处理,具体可以参考本发明对步骤72的描述,从而可以得到去除停止词的关键词。
S92、分别提取各个关键词的词特征并构成各个关键词的词特征集合。
针对步骤S91得到的每一关键词,分别提取该关键词的词特征,本发明中的词特征可以但不限于为词频、词性和词向量等,从而可以得到词特征集合,记为Q={q1,q2,q3,……,qg}。
S93、根据各个关键词的词特征集合和所述标签词典生成模型,得到该标签初始的标签词典。
具体地,将词特征集合Q输入到预先为该标签训练得到的标签词典生成模型中,基于此得到该标签初始的标签词典。
可选地,本发明中的标签词典生成模型为可以线性分类器,在此基础之上,可以按照图10所示的流程实施步骤S93,包括以下步骤:
S101、将各个关键词的词特征集合输入到所述线性分类器中,确定各个关键词的权重。
具体地,本发明中的标签词典生成模型可以为训练好的线性分类器,当将词特征集合Q输入到训练好的线性分类器中时,这样,线性分类器可以输出各个关键词的权重。
S102、对各个关键词的权重进行排序处理,将前N个权重对应的关键词构成该标签初始的标签词典。
本步骤中,权重越大,则表明该关键词对该标签的贡献越高,越有可能属于该标签,基于此原理,可以将各个关键词的权重按照由大到小的顺序进行排序,然后可以选取前N个(TOP N)权重对应的关键词,并将选取的关键词(选取出的关键词就可以称作标签词)构成该标签初始的标签词典。本发明中N个取值可以根据经验设定。
可选地,针对每一标签,该标签的线性分类器可以按照下述过程进行训练,包括:
步骤一:从数据集中筛选出标注了该标签的电子资源。
步骤二:对每一电子资源进行分词和去停止词处理,得到该电子资源的关键词构成的集合W={w1,w2,w3,……,wt}。
步骤三:提取集合W中每一关键词的词特征,构成词特征集合X={x1,x2,x3,……,xg}。
步骤四:基于词特征集合,采用线性分类器构建关键词与标签之间的映射关系,即f(X)->标签label。
步骤五:训练上述线性分类器并验证收敛性和泛化性,直至达到理想状态。
通过实施步骤一至步骤五,由于输入是有标注的,根据输入的标注结果和线性分类器输出的结果进行比较,然后根据比较结果对线性分类器中参数进行调整,从而完成对线性分类器的训练。本发明中的理想状态可以理解为达到迭代次数等。基于此,即可训练得到每一标签的线性分类器,由于本发明中采用了线性分类器,简单高效,无需太多标注样本。
可选地,本发明中的线性分类器可以但不限于包括线性回归(Linear,Regression,LR)和线性支持向量机(Linear Support Vetor Machine,Linear-SVM)等。
本发明中仅在获取标签初始的标签词典时,才会利用训练好的线性分类器生成,也就是说,仅通过少量标注标签的电子资源训练一次线性分类器,不仅响应速度块,而且因为采用的是线性分类器,简单且高效;之后的标签词典均采用图8a的流程进行优化,由于优化过程可以采用并行处理的方式,不仅准确度高而且速度快,再者也不涉及模型的全量训练。
此外,当标签体系发生变化,比如修改或删除某些标签类别时,若增加标签,本发明可以线下先基于标准该标签的电子资源预先训练该标签的线性分类器,然后再基于线性分类器采用图9和图10的流程获得该标签初始的标签词典,这样,当线上新增标签时,基于本发明提供的方法只需冷启动新增的标签词典,当删除某些标签时,只需删除该标签的标签词典,无需像现有的方法一样重新训练整个标签模型,既简单又灵活,适合线上大规模部署。
本发明提供的电子资源的标签确定方法,由于本发明中并不是基于现有技术中的训练好的标签模型直接确定待标注电子资源的标签,而是采用标签词典匹配待标注电子资源,然后基于匹配到的标签词构成的标签词集合确定各个标签与待标注电子资源的相关度,进而基于各个标签确定出的相关度确定待标注电子资源的标签,由于无需训练标签模型,其也就不存在现有技术中因标签模型结构复杂而导致的响应速度慢的问题,实现了高效为待标注电子资源标注标签的目的。
基于同一发明构思,本发明实施例中还提供了一种电子资源的标签确定装置,由于上述装置解决问题的原理与电子资源的标签确定方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图11所示,为本发明实施例提供的电子资源的标签确定装置的结构示意图,包括:
获得单元111,用于针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;
确定单元112,用于基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;
标签标注单元113,用于将相关度满足设定条件的标签标注为所述待标注电子资源的标签。
可选地,本发明提供的电子资源的标签确定装置,还包括:
标签词典优化单元114,用于从基于该标签的标签词典标注了该标签的电子资源中选取相关度满足电子资源筛选条件的电子资源,并从所述相关度满足电子资源筛选条件的每一电子资源中提取重要度高于设定值的关键词,并采用提取的关键词优化该标签的标签词典;其中,该标签初始的标签词典为基于预先训练好的标签词典生成模型,从标注了该标签的电子资源中提取的关键词构成的。
可选地,本发明提供的电子资源的标签确定装置,还包括:
初始标签词典创建单元115,用于针对标注了该标签的每一电子资源,对该电子资源进行分词及滤词处理,得到该电子资源的关键词;分别提取各个关键词的词特征并构成各个关键词的词特征集合;根据各个关键词的词特征集合和所述标签词典生成模型,得到该标签初始的标签词典。
可选地,所述标签词典生成模型为线性分类器;则
所述初始标签词典创建单元115,具体用于将各个关键词的词特征集合输入到所述线性分类器中,确定各个关键词的权重;对各个关键词的权重进行排序处理,将前N个权重对应的关键词构成该标签初始的标签词典。
可选地,所述标签词典优化单元114,具体用于分别确定提取出的关键词构成的关键词集合和该标签的标签词典之间的差集和交集;针对差集中的每一关键词,确定该关键词与所述交集之间的关联度;基于差集中各个关键词的关联度,确定满足更新筛选条件的关键词;将满足更新筛选条件的关键词补入到该标签的标签词典中。
可选地,所述确定单元112,具体用于确定该标签的标签词集合中标签词的数量;根据所述标签词的数量,确定该标签与所述待标注电子资源的相关度。
可选地,所述确定单元112,具体用于针对该标签的标签词集合中每一标签词,确定该标签词在所述待标注电子资源中出现的频次;确定该标签词的逆文档频率;基于该标签的标签词集合确定出的各个标签词的频次和逆文档频率,确定该标签与所述待标注电子资源的相关度。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的电子资源的标签确定方法、装置和可读介质之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述描述的根据本发明各种示例性实施方式的电子资源的标签确定方法中的步骤。例如,所述处理单元可以执行如图3所示的步骤S31~S33中电子资源的标签确定流程。
下面参照图12来描述根据本发明的这种实施方式的计算装置120。图12显示的计算装置120仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,计算装置120以通用计算设备的形式表现。计算装置120的组件可以包括但不限于:上述至少一个处理单元121、上述至少一个存储单元122、连接不同系统组件(包括存储单元122和处理单元121)的总线123。
总线123表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元122可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1221和/或高速缓存存储器1222,还可以进一步包括只读存储器(ROM)1223。
存储单元122还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225,这样的程序模块1224包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置120也可以与一个或多个外部设备124(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置120交互的设备通信,和/或与使得该计算装置120能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口125进行。并且,计算装置120还可以通过网络适配器126与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器126通过总线123与用于计算装置12的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置120使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的电子资源的标签确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的电子资源的标签确定方法中的步骤,例如,所述计算机设备可以执行如图3所示的步骤S31~S33中电子资源的标签确定流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于电子资源的标签确定方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种电子资源的标签确定方法,其特征在于,包括:
针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;
基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;
将相关度满足设定条件的标签标注为所述待标注电子资源的标签;
其中,所述每个标签的标签词典,是根据标注了该标签的电子资源获得的,包括:从已标注电子资源中选取相关度满足电子资源筛选条件的目标电子资源,所述已标注电子资源为基于该标签的标签词典为其标注了该标签的电子资源,并从每一目标电子资源中提取重要度高于设定值的关键词,以及,分别确定提取出的关键词构成的关键词集合和该标签的标签词典之间的差集和交集,针对差集中的每一关键词,确定该关键词与所述交集之间的关联度,基于差集中各个关键词的关联度,确定满足更新筛选条件的关键词,将满足更新筛选条件的关键词补入到该标签的标签词典中。
2.如权利要求1所述的方法,其特征在于,标签初始的标签词典为基于预先训练好的标签词典生成模型,从标注了该标签的电子资源中提取的关键词构成的。
3.如权利要求2所述的方法,其特征在于,基于预先训练好的标签词典生成模型,从标注了该标签的电子资源中提取关键词,得到该标签初始的标签词典,具体包括:
针对标注了该标签的每一电子资源,对该电子资源进行分词及滤词处理,得到该电子资源的关键词;
分别提取各个关键词的词特征并构成各个关键词的词特征集合;
根据各个关键词的词特征集合和所述标签词典生成模型,得到该标签初始的标签词典。
4.如权利要求3所述的方法,其特征在于,所述标签词典生成模型为线性分类器;则
根据各个关键词的词特征集合和所述标签词典生成模型,得到该标签初始的标签词典,具体包括:
将各个关键词的词特征集合输入到所述线性分类器中,确定各个关键词的权重;
对各个关键词的权重进行排序处理,将前N个权重对应的关键词构成该标签初始的标签词典。
5.如权利要求1所述的方法,其特征在于,基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度,具体包括:
确定该标签的标签词集合中标签词的数量;
根据所述标签词的数量,确定该标签与所述待标注电子资源的相关度。
6.如权利要求1所述的方法,其特征在于,基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度,具体包括:
针对该标签的标签词集合中每一标签词,确定该标签词在所述待标注电子资源中出现的频次;
确定该标签词的逆文档频率;
基于该标签的标签词集合确定出的各个标签词的频次和逆文档频率,确定该标签与所述待标注电子资源的相关度。
7.一种电子资源的标签确定装置,其特征在于,包括:
获得单元,用于针对每个标签对应的标签词典,将标签词典中包含的各个标签词分别与待标注电子资源相匹配,获得匹配到的标签词组成的标签词集合,其中,每个标签的标签词典,是根据标注了该标签的电子资源获得的;
确定单元,用于基于每一标签匹配出的标签词集合,确定该标签与所述待标注电子资源的相关度;
标签标注单元,用于将相关度满足设定条件的标签标注为所述待标注电子资源的标签;
其中,所述每个标签的标签词典,是根据标注了该标签的电子资源获得的,包括从已标注电子资源中选取相关度满足电子资源筛选条件的目标电子资源,所述已标注电子资源为基于该标签的标签词典为其标注了该标签的电子资源,并从每一目标电子资源中提取重要度高于设定值的关键词,以及,分别确定从所述电子资源提取出的关键词构成的关键词集合和该标签的标签词典之间的差集和交集,针对差集中的每一关键词,确定该关键词与所述交集之间的关联度,基于差集中各个关键词的关联度,确定满足更新筛选条件的关键词,将满足更新筛选条件的关键词补入到该标签的标签词典中。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一权利要求所述的方法。
9.一种计算机可读介质,存储有处理器可执行指令,其特征在于,所述处理器可执行指令用于执行如权利要求1至6任一权利要求所述的方法。
CN201910160879.9A 2019-03-04 2019-03-04 一种电子资源的标签确定方法、装置和可读介质 Active CN109918662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910160879.9A CN109918662B (zh) 2019-03-04 2019-03-04 一种电子资源的标签确定方法、装置和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910160879.9A CN109918662B (zh) 2019-03-04 2019-03-04 一种电子资源的标签确定方法、装置和可读介质

Publications (2)

Publication Number Publication Date
CN109918662A CN109918662A (zh) 2019-06-21
CN109918662B true CN109918662B (zh) 2021-03-16

Family

ID=66963149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910160879.9A Active CN109918662B (zh) 2019-03-04 2019-03-04 一种电子资源的标签确定方法、装置和可读介质

Country Status (1)

Country Link
CN (1) CN109918662B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598091A (zh) * 2019-08-09 2019-12-20 阿里巴巴集团控股有限公司 用户标签挖掘方法、装置、服务器及可读存储介质
CN110674319A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 标签确定方法、装置、计算机设备及存储介质
CN111026908B (zh) * 2019-12-10 2023-09-08 腾讯科技(深圳)有限公司 歌曲标签确定方法、装置、计算机设备以及存储介质
CN113032517B (zh) * 2019-12-25 2022-05-03 厦门铠甲网络股份有限公司 一种从文章中获取结构化标签的方法
CN112015928A (zh) * 2020-08-26 2020-12-01 北京达佳互联信息技术有限公司 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN112527427A (zh) * 2020-11-19 2021-03-19 贝壳技术有限公司 页面展示方法、装置、计算机可读存储介质及电子设备
CN113742444A (zh) * 2021-07-08 2021-12-03 平安科技(深圳)有限公司 文本标注方法、装置、存储介质及计算机设备
CN113961725A (zh) * 2021-10-25 2022-01-21 北京明略软件系统有限公司 一种标签自动标注方法及系统、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109271624A (zh) * 2018-08-23 2019-01-25 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4755122B2 (ja) * 2007-02-16 2011-08-24 日本電信電話株式会社 画像辞書生成方法及び装置及びプログラム
CN101216842B (zh) * 2008-01-07 2011-05-18 成都市华为赛门铁克科技有限公司 获取页面关键词的方法及页面信息处理装置
CN108228555A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 基于栏目主题的文章处理方法和装置
CN109388760B (zh) * 2017-08-03 2023-04-07 腾讯科技(北京)有限公司 推荐标签获取方法、媒体内容推荐方法、装置及存储介质
CN108875059B (zh) * 2018-06-29 2021-02-12 北京百度网讯科技有限公司 用于生成文档标签的方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109271624A (zh) * 2018-08-23 2019-01-25 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质

Also Published As

Publication number Publication date
CN109918662A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918662B (zh) 一种电子资源的标签确定方法、装置和可读介质
CN110457581B (zh) 一种资讯推荐方法、装置、电子设备及存储介质
US20230237328A1 (en) Information processing method and terminal, and computer storage medium
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
CN111507104B (zh) 建立标签标注模型的方法、装置、电子设备和可读存储介质
US11741711B2 (en) Video classification method and server
CN111783468B (zh) 文本处理方法、装置、设备和介质
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
US11238097B2 (en) Method and apparatus for recalling news based on artificial intelligence, device and storage medium
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
EP3825862A2 (en) Method and apparatus of recommending information based on fused relationship network, and device and medium
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
CN109471978B (zh) 一种电子资源推荐方法及装置
CN111104514A (zh) 文档标签模型的训练方法及装置
US20220067439A1 (en) Entity linking method, electronic device and storage medium
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
US11586817B2 (en) Word vector retrofitting method and apparatus
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN112541125B (zh) 序列标注模型训练方法、装置及电子设备
CN111737996A (zh) 基于语言模型获取词向量的方法、装置、设备及存储介质
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
CN112380104A (zh) 用户属性识别方法、装置、电子设备及存储介质
CN113869377A (zh) 训练方法、装置及电子设备
CN111444335B (zh) 中心词的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant