CN116662882A - 一种邮件标注方法、装置、设备及存储介质 - Google Patents
一种邮件标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116662882A CN116662882A CN202310631345.6A CN202310631345A CN116662882A CN 116662882 A CN116662882 A CN 116662882A CN 202310631345 A CN202310631345 A CN 202310631345A CN 116662882 A CN116662882 A CN 116662882A
- Authority
- CN
- China
- Prior art keywords
- labeling
- data
- marked
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 249
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000012015 optical character recognition Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及邮件标注技术领域,尤其涉及一种邮件标注方法、装置、设备及存储介质,用于解决邮件标注的分类标签准确率低下问题,该方法为:按照预设内容提取规则,从接收到的待标注邮件的原始数据中提取出待标注数据,其中,待标注数据的类型包括文本和/或图像;再将该待标注数据发送至多个标注终端,接收每个标注终端返回的标注结果,并根据多个标注结果,确定该待标注邮件的分类标签;这样,通过预设的内容提取规则,可以从待标注邮件的原始数据中提取出不同类型的待标注数据,根据多个标注终端返回的针对该待标注数据的标注结果,可以协同确定待标注邮件的分类标签,从而大大降低了错误标签的产生概率,提高了邮件标注的分类标签准确率。
Description
技术领域
本申请涉及邮件标注技术领域,尤其涉及一种邮件标注方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,各种通讯技术手段层出不穷,但电子邮件作为工作中的正式发文媒介,依然占据重要角色。在电子邮件的使用过程中,垃圾邮件(或存在威胁的邮件)层出不穷,占据整个互联网邮件总量的比例很高,严重影响着邮件系统的正常使用。
相关技术下,通常借助机器学习模型来识别垃圾邮件(或存在威胁的邮件),但机器学习模型通常需要预先收集大量的训练样本,然后基于收集的大量训练样本对模型进行迭代训练得到,那么,训练样本的分类标签的准确情况直接影响着机器学习模块的优劣。然而,目前传统邮件标注一般由专职标注员进行标注,但大规模的训练样本,人工进行标注效率低下,且极易产生错误标签。为了提高标注效率,适当降低错误标签的产生概率,目前常通过智能标注模型进行标注;对于简单的标注智能标注模块能够完成,但对于比较复杂的标注,比如内容多变的邮件,智能标注模块的标注准确率往往比较低。
发明内容
本申请实施例提供一种邮件标注方法、装置、设备及存储介质,用以提高邮件标注的分类标签准确率。
本申请实施例提供的具体技术方案如下:
第一方面,本申请实施例提供一种邮件标注方法,包括:
获取待标注邮件的原始数据,并按照预设的内容提取规则,从所述原始数据中提取出待标注数据,其中所述待标注数据的类型包括文本和/或图像;
将所述待标注数据分别发送至多个标注终端;
接收每个标注终端返回的标注结果,其中所述标注结果是对应标注终端响应于针对所述待标注数据的预设操作得到的;
根据多个标注结果,确定所述待标注邮件的分类标签。
采用该申请提供的一种邮件标注方法,通过预设的内容提取规则,可以从待标注邮件的原始数据中提取出不同类型的待标注数据,将该待标注数据分发值多个标注终端,并根据多个标注终端返回的针对该待标注数据的标注结果,可以协同确定待标注邮件的分类标签,大大降低了错误标签的产生概率,提高了邮件标注的分类标签准确率。
在一种可能的实现方式中,所述根据多个标注结果,确定所述待标注邮件的分类标签,包括:
根据所述多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值;
根据所述多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到所述待标注数据对应的标签参考值;
若所述标签参考值位于预设区间内,则将所述待标注数据发送至目标终端进行标注,并基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签;
若所述标签参考值不位于所述预设区间内,则根据所述标签参考值,确定所述待标注邮件的分类标签。
在一种可能的实现方式中,在所述基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签之后,还包括:
从所述多个标注终端中筛选出与所述目标标注结果一致的各个候选标注终端;
调高所述各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值;
调低所述多个标注终端中除所述候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
在一种可能的实现方式中,所述根据所述标签参考值,确定所述待标注邮件的分类标签,包括:
若所述标签参考值大于所述预设区间的最大值,则将所述最大值对应的标签,作为所述待标注邮件的分类标签;
若所述标签参考值小于所述预设区间的最小值,则将所述最小值对应的标签,作为所述待标注邮件的分类标签。
在一种可能的实现方式中,所述按照预设的内容提取规则,从所述原始数据中提取出待标注数据,包括:
从所述原始数据中提取出所述待标注邮件的邮件正文中的正文文本数据和/或正文图像数据和/或正文图像文字识别OCR文本数据;和/或
从所述原始数据中提取出所述待标注邮件的附件中的附件文本数据和/或附件图像数据和/或附件图像OCR文本数据;
将所述正文文本数据和/或正文图像数据和/或正文图像OCR文本数据,和/或,所述附件文本数据和/或附件图像数据和/或附件图像OCR文本数据,作为所述待标注数据。
第二方面,本申请实施例提供一种邮件标注装置,包括:
数据提取模块,用于获取待标注邮件的原始数据,并按照预设的内容提取规则,从所述原始数据中提取出待标注数据,其中所述待标注数据的类型包括文本和/或图像;
发送模块,用于将所述待标注数据分别发送至多个标注终端;
接收模块,用于接收每个标注终端返回的标注结果,其中所述标注结果是对应标注终端响应于针对所述待标注数据的预设操作得到的;
确定模块,用于根据多个标注结果,确定所述待标注邮件的分类标签。
在一种可能的实现方式中,所述确定模块具体用于:
根据所述多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值;
根据所述多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到所述待标注数据对应的标签参考值;
若所述标签参考值位于预设区间内,则将所述待标注数据发送至目标终端进行标注,并基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签;
若所述标签参考值不位于所述预设区间内,则根据所述标签参考值,确定所述待标注邮件的分类标签。
在一种可能的实现方式中,在所述基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签之后,所述确定模块还用于:
从所述多个标注终端中筛选出与所述目标标注结果一致的各个候选标注终端;
调高所述各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值;
调低所述多个标注终端中除所述候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
在一种可能的实现方式中,所述确定模块具体用于:
若所述标签参考值大于所述预设区间的最大值,则将所述最大值对应的标签,作为所述待标注邮件的分类标签;
若所述标签参考值小于所述预设区间的最小值,则将所述最小值对应的标签,作为所述待标注邮件的分类标签。
在一种可能的实现方式中,所述数据提取模块具体用于:
从所述原始数据中提取出所述待标注邮件的邮件正文中的正文文本数据和/或正文图像数据和/或正文图像文字识别OCR文本数据;和/或
从所述原始数据中提取出所述待标注邮件的附件中的附件文本数据和/或附件图像数据和/或附件图像OCR文本数据;
将所述正文文本数据和/或正文图像数据和/或正文图像OCR文本数据,和/或,所述附件文本数据和/或附件图像数据和/或附件图像OCR文本数据,作为所述待标注数据。
第三方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机程序或指令;
处理器,用于执行所述存储器中的计算机程序或指令,使得如第一方面中任一所述的方法被执行。
第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
另外,第二方面至第五方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1A为本申请实施例中一个应用场景示意图;
图1B为本申请实施例中一个邮件标注系统的结构示意图;
图2为本申请实施例中一种邮件标注方法的流程示意图;
图3为本申请实施例中一种待标注数据的确定方法的流程示意图;
图4A为本申请实施例中的待标注邮件的邮件截图示意图;
图4B为本申请实施例中的待标注数据的提取过程示意图;
图5为本申请实施例中一种确定待标注邮件的分类标签的流程示意图;
图6为本申请实施例中一种标注终端的权重值调整方法的流程示意图;
图7为本申请实施例中一种邮件标注装置的逻辑架构示意图;
图8为本申请实施例中一种电子设备的实体架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够在除了这里图示或描述的那些以外的顺序实施。
本申请实施例中,为了解决相关技术下邮件标注的分类标签准确率低下的问题,本申请实施例中,按照预设内容提取规则,从接收到的待标注邮件的原始数据中提取出待标注数据,将该待标注数据发送至多个标注终端,接收每个标注终端返回的标注结果,并根据多个标注结果,确定该待标注邮件的分类标签;这样,通过预设的内容提取规则,可以从待标注邮件的原始数据中提取出不同类型的待标注数据,将该待标注数据分发值多个标注终端,并根据多个标注终端返回的针对该待标注数据的标注结果,可以协同确定待标注邮件的分类标签,大大降低了错误标签的产生概率,提高了邮件标注的分类标签准确率。
下面结合附图对本申请优选的实施方式做出进一步详细说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1A所示,其为本申请实施例的应用场景示意图。该应用场景包括邮件服务器100、邮件标注系统200和多个标注终端300。其中,
邮件标注系统200用于从邮件服务器100中获取多个待标注邮件的原始数据,该待标注邮件包括用户举报的邮件、经人工确定的线上模型识别错误的邮件(badcase),以及线上随机抽样的未被模型识别的邮件中的任意一种;然后,针对每个待标注邮件执行如下步骤:按照预设的内容提取规则,从原始数据中提取出待标注数据,其中,待标注数据的类型包括文本和/或图像;将待标注数据分别发送至多个标注终端300。
每个标注终端300用于响应于针对接收到的待标注数据的预设操作,得到待标注数据的标注结果,并将该标注结果返回至邮件标注系统200。
邮件标注系统200还用于在接收每个标注终端返回的标注结果后,根据多个标注结果,确定该待标注邮件的分类标签。
在一些可行的实施例中,邮件标注系统200具体用于从该标注邮件的原始数据中提取出的待标注数据中包括多种类型的数据,如,类型为文本的数据,类型为图像的数据,可以将上述多种类型的数据一并发送至每个标注终端,也可以分开推送至每个标注终端,其中,从同一待标注邮件提取出的待标注数据均携带该标注邮件的标识。
在一些可行的实施例中,若邮件标注系统200将待标注数据包含的多种类型的数据分开发送至每个标注终端,则邮件标注系统200可以基于该待标注邮件的标识,从接收到的多个标注结果中选取出每个标注终端针对该待标注邮件的多种类型的待标注数据的标注结果,并基于对应标注终端返回的多种类型的待标注数据的标注结果,汇总得到该标注终端针对该待标注邮件的标注结果。
在上述应用场景中,参阅图1B所示,邮件标注系统200包括增量采集集群201和实时处理集群202。其中,
增量采集集群201由多个服务器组成,用于从邮件服务器100获取待标注邮件的原始数据,并按照统一格式将获取到的原始数据发送至消息队列203;
实时处理集群202由多个处理节点组成,用于监听该消息队列203,接收待标注邮件的原始数据,并按照预设的内容提取规则,从原始数据中提取出待标注数据,该待标注数据的类型包括文本和/或图像;然后,将该待标注数据发送至多个标注终端300,以及接收每个标注终端300返回的标注结果,根据多个标注结果,确定该待标注邮件的分类标签;最后,将该待标注邮件及分类标签存储到预设数据库204中。
本申请实施例中,由于引入增量采集集群、实时处理集群,保证了邮件标注系统的稳定性、可靠性、低延时;加之消息队列能够保证邮件标注系统的高吞吐量,因此,在日常复杂的生产条件下,图1B示出的邮件标注系统能够应对千万级别数据的采集分发处理,以保证后续协同标注的顺利进行。具体实施中,可以通过实时处理集群将待标注数据分发给标注团队内部的各个标注终端,也可以将待标注数据分发给标注团队之外的各个标注终端,从而实现灵活管理和组织标注团队,进一步提高邮件标注的分类标签准确率,进而使得后期基于采用上述邮件标注方法得到的训练样本进行迭代训练,得到精度更高的模型变为可能。
在介绍完本申请实施例的应用场景之后,图2所示出了本申请实施例中的一种邮件标注方法,该方法应用于邮件标注系统。需要说明的是,下面仅以对一封待标注邮件进行处理为例,对本申请的技术方案的处理流程进行详细介绍,实施中,邮件标注系统可采用下述相同的处理流程对多个待标注邮件进行处理,以确定对应待标注邮件的分类标签,从而得到海量训练样本。参阅图2所示,本申请实施例中的一种邮件标注方法的具体流程如下:
步骤400:获取待标注邮件的原始数据,并按照预设的内容提取规则,从原始数据中提取出待标注数据,其中,待标注数据的类型包括文本和/或图像。
本申请实施例中,在执行步骤400中的获取待标注邮件的原始数据时,邮件标注系统从邮件服务器中获取该待标注邮件的原始数据,其中,该待标注邮件可以是用户举报的邮件,也可以是经人工确定被线上模型识别错误的badcase,还可以是线上随机抽样的未被模型识别的邮件。
通常邮件的主要内容为邮件正文,但通过对大量垃圾邮件(或存在威胁的邮件)进行分析,发现垃圾邮件(或存在威胁的邮件)的发送者为了避免被反垃圾系统(或防御系统等)拦截,会采用多种隐藏、包装手段,邮件的附件便成为邮件有害内容的载体,因此,本申请实施例中,在获取到待标注邮件的原始数据之后,参阅图3所示,在执行步骤400中的按照预设的内容提取规则,从所述原始数据中提取出待标注数据时,具体可以执行如下步骤:
步骤500:从原始数据中提取出待标注邮件的邮件正文中的正文文本数据和/或正文图像数据和/或正文图像OCR文本数据;和/或,从原始数据中提取出待标注邮件的附件中的附件文本数据和/或附件图像数据和/或附件图像OCR文本数据。
其中,文字识别(optical character recognition,OCR)。
具体实施中,参阅图4A所示,假设待标注邮件包括邮件正文和附件,邮件正文包括文本(记为正文文本)和图像(记为正文图像),附件为一张图像(记为附件图像),如包含有开票链接的图像。那么,参阅图4B所示,在获取到该待标注邮件的原始数据之后,从原始数据中提取出待标注邮件的邮件正文中的正文文本数据、正文图像数据,然后,从正文图像数据中识别出正文图像OCR文本数据;从原始数据中提取出待标注邮件的附件中的附件图像数据,并从该附件图像数据中识别出附件图像OCR文本数据。
在一些可行的实施例中,上述正文图像数据包括正文图像对应的图像特征信息,附件图像数据包括附件图像对应的图像特征信息。
在一些可行的实施例中,若附件为压缩包,则邮件标注系统从原始数据中提取出附件数据,再对该附件数据进行解压缩,得到附件图像数据和/或附件文本数据,以及从附件图像数据中识别出附件图像OCR文本数据。
步骤510:将正文文本数据和/或正文图像数据和/或正文图像OCR文本数据,和/或,附件文本数据和/或附件图像数据和/或附件图像OCR文本数据,作为待标注数据。
本申请实施例中,仍参阅图4B所示,将该正文文本数据、正文图像数据、正文图像OCR文本数据、附件图像数据、附件图像OCR文本数据,作为待标注数据。
步骤410:将待标注数据分别发送至多个标注终端。
本申请实施例中,仍参阅图4B所示,在执行步骤410时,可以将正文文本数据、正文图像数据、正文图像OCR文本数据、附件图像数据、附件图像OCR文本数据作为一个文件,将文件复制多份,分别发送至多个标注终端;也可以将正文文本数据、正文图像数据、正文图像OCR文本数据、附件图像数据、附件图像OCR文本数据各自作为一个文件,分别发送至多个标注终端。
具体实施中,参阅图2所示,可以通过实时处理集群,借助各个处理节点实现同时向多个标注终端推送上述待标注数据,以保证分发内容的实时性和一致性。
步骤420:接收每个标注终端返回的标注结果,其中,标注结果是对应标注终端响应于针对待标注数据的预设操作得到的。
具体实施中,标注员可以通过标注终端获得待标注数据,并在标注终端的显示界面中显示该待标注数据,以及在显示界面中执行预设操作,对该待标注数据进行标注,以得到针对该待标注数据的标注结果,然后,通过标注终端将标注结果发送至邮件标注系统,从而邮件标注系统接收到每个标注终端返回的标注结果。
步骤430:根据多个标注结果,确定待标注邮件的分类标签。
本申请实施例中,参阅图5所示,在执行步骤430时,具体执行如下步骤:
步骤4301:根据多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值。
本申请实施例中,可以基于如下内容预先设置标注结果与标签值之间的对应关系:若标注结果表征该待标注邮件为垃圾邮件(或存在威胁的邮件),则该标注结果对应的标签值为1;若标注结果表征该待标注邮件为正常邮件(或不存在威胁的邮件),则该标注结果对应的标签值为-1。
具体实施中,在执行步骤4301时,可以从标注结果与标签值之间的对应关系中,查询得到每个标注结果对应的标签值。
步骤4302:根据多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到待标注数据对应的标签参考值。
本申请实施例中,预先为每个标注终端配置权重值,以表征该标注终端的标注可信程度。示例性的,可为每个标注终端配置初始权重值,基于后续调整方式动态调整每个标注终端的权重值。仍参阅图1B所示,上述权重值可存储在预设数据库204中。具体实施中,在执行步骤4302时,可以采用如下公式来计算得到该待标注数据对应的标签参考值l:
其中,li为第i个标注终端的标注结果,本申请实施例中,li取值为1或-1,分别表征该待标注邮件为正样本(垃圾邮件或存在威胁的邮件)或负样本(正常邮件或不存在威胁的邮件);权重值wi(0<wi<1)表征第i个标注终端的标注可信程度;n为标注终端的总数。
步骤4303:若标签参考值位于预设区间内,则将待标注数据发送至目标终端进行标注,并基于目标终端返回的目标标注结果,确定待标注邮件的分类标签。
其中,上述预设区间可以是(-r,r),其中,n为标注终端的总数。
仍参阅图1A所示,该应用场景还包括目标终端(图中未示出),该目标终端对应的标注人员与标注终端对应的标注人员不同,目标终端对应的标注人员通常是经验更为丰富的标注员或算法工程师。
具体实施中,将上述标签参考值与预设区间进行比较,若确定标签参考值位于该预设区间内,则确定该待标注邮件的标注结果存在争议,那么,执行步骤4303,将待标注数据发送至目标终端进行标注,并基于该目标终端返回的目标标注结果,确定该待标注邮件的分类标签。由于该目标终端对应的标注人员通常是经验更为丰富的标注员或算法工程师,因此,由目标终端返回的目标标注结果更具有权威性,可信程度更高,那么,基于该目标标注结果确定的该待标注邮件的分类标签也更为准确。
本申请实施例中,在执行步骤4303之后,参阅图6所示,进一步通过执行如下步骤,对部分标注终端的权重值进行调整,以便提高邮件标注的分类标签的整体准确率:
步骤600:从多个标注终端中筛选出与目标标注结果一致的各个候选标注终端。
步骤610:调高各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值。
其中,第一预设值可以为1。在执行步骤610时,对各个候选标注终端中,权重值小于第一预设值的候选标注终端的权重值进行适当调高。
具体实施中,可以根据实际情况设置权重值的具体调整方式。示例性的,具体调整方式可以是调高固定值,如固定值为0.05;具体调整方式还可以是基于历史标注情况(如,判定无误累积次数),按照一定梯度调高权重值,如,判定无误累积次数为1,则调高0.01;判定无误累积次数为2,则调高0.03;……;判定无误累积次数为a,则调高0.1等等。
步骤620:调低多个标注终端中除候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
其中,第二预设值可以是0。具体实施中,同样可以根据实际情况设置权重值的具体调整方式,如调低固定值,或基于历史标注情况,按梯度进行调低等。
本申请实施例中,在执行步骤610和步骤620之后,将调整后的权重值存储在预设数据库(图1B已示出)中。
步骤4304:若标签参考值不位于预设区间内,则根据标签参考值,确定待标注邮件的分类标签。
具体实施中,将上述标签参考值与预设区间进行比较,若确定标签参考值不位于该预设区间内,则确定该待标注邮件的标注结果不存在争议,那么,执行步骤4304,根据标签参考值,确定待标注邮件的分类标签。
本申请实施例中,在执行步骤4304时,包含但不限于如下两种情况:
情况一,若标签参考值大于预设区间的最大值,则将最大值对应的标签,作为待标注邮件的分类标签。
情况二,若标签参考值小于预设区间的最小值,则将最小值对应的标签,作为待标注邮件的分类标签。
在一些可行的实施例中,仍参阅图4B所示,在步骤410时,若邮件标注系统将正文文本数据、正文图像数据、正文图像OCR文本数据、附件图像数据、附件图像OCR文本数据各自作为一个文件,分别发送至多个标注终端,则邮件标注系统会接收到每个标注终端返回的针对正文文本数据进行标注的标注结果、针对正文图像数据进行标注的标注结果、针对正文图像OCR文本数据进行标注的标注结果、针对附件图像数据进行标注的标注结果,以及针对附件图像OCR文本数据进行标注的标注结果。
那么,在执行步骤4301时,首先,基于任一标注终端返回的针对待标注邮件的各个标注结果,确定对应标注终端针对该待标注邮件的标注结果,其中,若其中一个标注结果表征该待标注邮件为垃圾邮件(或存在威胁的邮件),则确定该标注终端针对该待标注邮件的标注结果为该待标注邮件为垃圾邮件(或存在威胁的邮件);若该标注终端返回的针对待标注邮件的所有标注结果均表征该标注邮件为正常邮件(或不存在威胁的邮件),则确定该标注终端针对该待标注邮件的标注结果为该待标注邮件为正常邮件(或不存在威胁的邮件)。
然后,再根据得到的多个标注终端针对该待标注邮件的标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值,从而得到标签参考值,以及基于该标签参考值,确定该待标注邮件的分类标签。
这样,采用本申请实施例提供的一种邮件标注方法,可以通过预设的内容提取规则,从待标注邮件的原始数据中提取出不同类型的待标注数据,将不同类型的待标注数据分发给多个标注终端,以协同确定待标注邮件的分类标签,大大降低了错误分类标签的产生概率,提高了邮件标注的分类标签准确率,从而保证了后续基于大规模的标注有分类标签的训练样本进行机器学习,可以得到高精度的模型。
基于同一发明构思,参阅图7所示,本申请实施例中提供一种邮件标注装置,包括:
数据提取模块710,用于获取待标注邮件的原始数据,并按照预设的内容提取规则,从所述原始数据中提取出待标注数据,其中所述待标注数据的类型包括文本和/或图像;
发送模块720,用于将所述待标注数据分别发送至多个标注终端;
接收模块730,用于接收每个标注终端返回的标注结果,其中所述标注结果是对应标注终端响应于针对所述待标注数据的预设操作得到的;
确定模块740,用于根据多个标注结果,确定所述待标注邮件的分类标签。
在一种可能的实现方式中,所述确定模块740具体用于:
根据所述多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值;
根据所述多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到所述待标注数据对应的标签参考值;
若所述标签参考值位于预设区间内,则将所述待标注数据发送至目标终端进行标注,并基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签;
若所述标签参考值不位于所述预设区间内,则根据所述标签参考值,确定所述待标注邮件的分类标签。
在一种可能的实现方式中,在所述基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签之后,所述确定模块740还用于:
从所述多个标注终端中筛选出与所述目标标注结果一致的各个候选标注终端;
调高所述各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值;
调低所述多个标注终端中除所述候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
在一种可能的实现方式中,所述确定模块740具体用于:
若所述标签参考值大于所述预设区间的最大值,则将所述最大值对应的标签,作为所述待标注邮件的分类标签;
若所述标签参考值小于所述预设区间的最小值,则将所述最小值对应的标签,作为所述待标注邮件的分类标签。
在一种可能的实现方式中,所述数据提取模块710具体用于:
从所述原始数据中提取出所述待标注邮件的邮件正文中的正文文本数据和/或正文图像数据和/或正文图像文字识别OCR文本数据;和/或
从所述原始数据中提取出所述待标注邮件的附件中的附件文本数据和/或附件图像数据和/或附件图像OCR文本数据;
将所述正文文本数据和/或正文图像数据和/或正文图像OCR文本数据,和/或,所述附件文本数据和/或附件图像数据和/或附件图像OCR文本数据,作为所述待标注数据。
基于同一发明构思,本申请实施例中提供一种电子设备,下面参照图8来描述根据本申请的这种实施方式的电子设备80。图8显示的电子设备80仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备80以通用电子设备的形式表现。电子设备80的组件可以包括但不限于:上述至少一个处理器81、上述至少一个存储器82、连接不同系统组件(包括存储器82和处理器81)的总线83。
总线83表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器82可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)821和/或高速缓存存储器822,还可以进一步包括只读存储器(ROM)823。
存储器82还可以包括具有一组(至少一个)程序模块824的程序/实用工具825,这样的程序模块824包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备80也可以与一个或多个外部设备84(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备80交互的设备通信,和/或与使得该电子设备80能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口85进行。并且,电子设备80还可以通过网络适配器86与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器86通过总线83与用于电子设备80的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备80使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述任一项所述的方法。由于上述计算机可读存储介质解决问题的原理与邮件标注方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
基于同一发明构思,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行如前文论述任一的方法。由于上述计算机程序产品解决问题的原理与邮件标注方法相似,因此上述计算机程序产品的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (11)
1.一种邮件标注方法,其特征在于,包括:
获取待标注邮件的原始数据,并按照预设的内容提取规则,从所述原始数据中提取出待标注数据,其中所述待标注数据的类型包括文本和/或图像;
将所述待标注数据分别发送至多个标注终端;
接收每个标注终端返回的标注结果,其中所述标注结果是对应标注终端响应于针对所述待标注数据的预设操作得到的;
根据多个标注结果,确定所述待标注邮件的分类标签。
2.如权利要求1所述的方法,其特征在于,所述根据多个标注结果,确定所述待标注邮件的分类标签,包括:
根据所述多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值;
根据所述多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到所述待标注数据对应的标签参考值;
若所述标签参考值位于预设区间内,则将所述待标注数据发送至目标终端进行标注,并基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签;
若所述标签参考值不位于所述预设区间内,则根据所述标签参考值,确定所述待标注邮件的分类标签。
3.如权利要求2所述的方法,其特征在于,在所述基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签之后,还包括:
从所述多个标注终端中筛选出与所述目标标注结果一致的各个候选标注终端;
调高所述各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值;
调低所述多个标注终端中除所述候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
4.如权利要求2所述的方法,其特征在于,所述根据所述标签参考值,确定所述待标注邮件的分类标签,包括:
若所述标签参考值大于所述预设区间的最大值,则将所述最大值对应的标签,作为所述待标注邮件的分类标签;
若所述标签参考值小于所述预设区间的最小值,则将所述最小值对应的标签,作为所述待标注邮件的分类标签。
5.如权利要求1-4任一所述的方法,其特征在于,所述按照预设的内容提取规则,从所述原始数据中提取出待标注数据,包括:
从所述原始数据中提取出所述待标注邮件的邮件正文中的正文文本数据和/或正文图像数据和/或正文图像文字识别OCR文本数据;和/或
从所述原始数据中提取出所述待标注邮件的附件中的附件文本数据和/或附件图像数据和/或附件图像OCR文本数据;
将所述正文文本数据和/或正文图像数据和/或正文图像OCR文本数据,和/或,所述附件文本数据和/或附件图像数据和/或附件图像OCR文本数据,作为所述待标注数据。
6.一种邮件标注装置,其特征在于,包括:
数据提取模块,用于获取待标注邮件的原始数据,并按照预设的内容提取规则,从所述原始数据中提取出待标注数据,其中所述待标注数据的类型包括文本和/或图像;
发送模块,用于将所述待标注数据分别发送至多个标注终端;
接收模块,用于接收每个标注终端返回的标注结果,其中所述标注结果是对应标注终端响应于针对所述待标注数据的预设操作得到的;
确定模块,用于根据多个标注结果,确定所述待标注邮件的分类标签。
7.如权利要求6所述的装置,其特征在于,所述确定模块具体用于:
根据所述多个标注结果,以及标注结果与标签值之间的对应关系,得到多个标注结果对应的标签值;
根据所述多个标注结果对应的标签值,以及每个标签值对应的标注终端的权重值,得到所述待标注数据对应的标签参考值;
若所述标签参考值位于预设区间内,则将所述待标注数据发送至目标终端进行标注,并基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签;
若所述标签参考值不位于所述预设区间内,则根据所述标签参考值,确定所述待标注邮件的分类标签。
8.如权利要求7所述的装置,其特征在于,在所述基于所述目标终端返回的目标标注结果,确定所述待标注邮件的分类标签之后,所述确定模块还用于:
从所述多个标注终端中筛选出与所述目标标注结果一致的各个候选标注终端;
调高所述各个候选标注终端中的权重值小于第一预设值的候选标注终端的权重值;
调低所述多个标注终端中除所述候选标注终端之外的权重值大于第二预设值的标注终端的权重值。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序或指令;
处理器,用于执行所述存储器中的计算机程序或指令,使得如权利要求1-5中任一所述的方法被执行。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如权利要求1-5中任一所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631345.6A CN116662882A (zh) | 2023-05-30 | 2023-05-30 | 一种邮件标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310631345.6A CN116662882A (zh) | 2023-05-30 | 2023-05-30 | 一种邮件标注方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662882A true CN116662882A (zh) | 2023-08-29 |
Family
ID=87720168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310631345.6A Pending CN116662882A (zh) | 2023-05-30 | 2023-05-30 | 一种邮件标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662882A (zh) |
-
2023
- 2023-05-30 CN CN202310631345.6A patent/CN116662882A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112906375A (zh) | 文本数据标注方法、装置、设备及存储介质 | |
CN112836018A (zh) | 应急预案的处理方法及装置 | |
CN114780370A (zh) | 基于日志的数据修正方法、装置、电子设备及存储介质 | |
CN113379391A (zh) | 工单处理方法、装置、电子设备及计算机可读存储介质 | |
CN115686280A (zh) | 深度学习模型管理系统、方法、计算机设备及存储介质 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
CN111858236B (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN113138906A (zh) | 一种调用链数据采集方法、装置、设备及存储介质 | |
CN110807082B (zh) | 质量抽检项目确定方法、系统、电子设备及可读存储介质 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN116304236A (zh) | 一种用户画像生成方法、装置、电子设备和存储介质 | |
CN116578696A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN116662882A (zh) | 一种邮件标注方法、装置、设备及存储介质 | |
CN115757304A (zh) | 一种日志存储方法、装置、系统、电子设备及存储介质 | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
US11397853B2 (en) | Word extraction assistance system and word extraction assistance method | |
CN112329883A (zh) | 模型训练系统、方法、设备及存储介质 | |
CN113590841B (zh) | 智能化快速审单与基于知识图谱的智能预警系统与方法 | |
CN112528112B (zh) | 数据收集及分析方法、装置、电子设备及存储介质 | |
CN115829763A (zh) | 数据报送方法、装置、计算机设备及存储介质 | |
CN114297347A (zh) | 行业类别的确定方法、装置、存储介质和电子设备 | |
Nketsiah et al. | Optimising a Formulated Cost Model to Minimise Labour Cost of Computer Networking Infrastructure: A Systematic Review | |
CN115098337A (zh) | 一种智能预警信息的处理方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |