CN111177421B - 一种面向数字人文的电子邮件历史事件轴生成方法及装置 - Google Patents

一种面向数字人文的电子邮件历史事件轴生成方法及装置 Download PDF

Info

Publication number
CN111177421B
CN111177421B CN201911422430.1A CN201911422430A CN111177421B CN 111177421 B CN111177421 B CN 111177421B CN 201911422430 A CN201911422430 A CN 201911422430A CN 111177421 B CN111177421 B CN 111177421B
Authority
CN
China
Prior art keywords
email
mail
generating
digital
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911422430.1A
Other languages
English (en)
Other versions
CN111177421A (zh
Inventor
林延中
杨芸
朱南皓
潘文辉
彭文浩
许佳柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lunkr Technology Guangzhou Co Ltd
Original Assignee
Lunkr Technology Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lunkr Technology Guangzhou Co Ltd filed Critical Lunkr Technology Guangzhou Co Ltd
Priority to CN201911422430.1A priority Critical patent/CN111177421B/zh
Publication of CN111177421A publication Critical patent/CN111177421A/zh
Priority to PCT/CN2020/141129 priority patent/WO2021136318A1/zh
Application granted granted Critical
Publication of CN111177421B publication Critical patent/CN111177421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • G06F16/447Temporal browsing, e.g. timeline
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质,方法包括:建立深度哈希模型,并利用训练数据集对深度哈希模型进行训练;利用训练好的深度哈希模型对预先归档的电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值并进行检索以提取出目标电子邮件;根据各个目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。本发明能够将深度学习应用于电子邮件检索,并对检索到的电子邮件生成电子邮件历史事件轴,从而能够有效辅助数字人文研究及相关电子史料的保存与利用、助力人文学术研究。

Description

一种面向数字人文的电子邮件历史事件轴生成方法及装置
技术领域
本发明涉及邮件检索领域,尤其是涉及一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质。
背景技术
在数字人文领域,传统人文历史研究也受到了诸如人工智能、深度学习的影响,产生了以技术辅助人文研究的新趋势。传统历史的研究依赖于纸质史料,随着互联网的普及,未来历史学家对当代历史的研究将会由传统纸质史料转为电子史料,电子邮件作为传统信件在信息社会里的新形式,能帮助各个群体更好地开展各方面的当代历史研究,为现实行为提供合法依据。
由于不同数据的异构性,以及传统手工设计特征在特征表示上能力不足,传统的跨模态检索方法不能有效地通过多模态数据的关联关系来降低其异构性,从而无法取得更好的效果。
同时,就提取电子邮件信息作为面向数字人文的历史事件轴而言,“语义鸿沟”问题是当今的难点问题,将深度学习应用于电子邮件检索,为解决异质数据之间的“媒体鸿沟”提供了大量特征学习与表示方面先进的研究成果。但是,传统检索技术不能有效捕捉在数字人文视域下,电子邮件包含的历史信息的空间性和时间性,无法学习强大的特征表示和跨模态嵌入,因而无法生成用于数字人文研究的高质量、紧凑的哈希编码,导致不能取得较好的检索效果。
发明内容
本发明实施例所要解决的技术问题在于,提供一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质,能够将深度学习应用于电子邮件检索,并对检索到的电子邮件生成电子邮件历史事件轴,进而有效辅助数字人文研究及相关电子史料的保存与利用。
为了解决上述技术问题,本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法,包括:
建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;
利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
进一步地,在所述建立深度哈希模型之前,还包括:
实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
进一步地,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
进一步地,所述建立深度哈希模型,还包括:
将预设的损失函数添加到所述深度哈希模型,以通过所述损失函数对所述深度哈希模型在训练过程中的输出结果进行约束。
进一步地,所述利用预设的训练数据集对所述深度哈希模型进行训练,具体为:
根据所述训练数据集中的多标签数据之间的共现关系,对数据之间的相似度判定规则进行定义;
以所述相似度判定规则作为监督信息,对所述深度哈希模型进行训练。
为了解决相同的技术问题,本发明还提供了一种面向数字人文的电子邮件历史事件轴生成装置,包括:
模型训练模块,用于建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;
邮件编码模块,用于利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
邮件检索模块,用于利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
事件轴生成模块,用于根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
进一步地,所述的面向数字人文的电子邮件历史事件轴生成装置还包括邮件归档模块,用于实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
进一步地,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
为了解决相同的技术问题,本发明还提供了一种面向数字人文的电子邮件历史事件轴生成终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
为了解决相同的技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
与现有技术相比,本发明具有如下有益效果:
本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质,所述方法包括:建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。本发明能够将深度学习应用于电子邮件检索,并对检索到的电子邮件生成电子邮件历史事件轴,从而能够有效辅助数字人文研究及相关电子史料的保存与利用、助力人文学术研究。
附图说明
图1是本发明一实施例提供的面向数字人文的电子邮件历史事件轴生成方法的流程示意图;
图2是本发明一实施例提供的面向数字人文的电子邮件历史事件轴生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法,包括步骤:
S1、建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;
在本发明实施例中,进一步地,所述建立深度哈希模型,还包括:
将预设的损失函数添加到所述深度哈希模型,以通过所述损失函数对所述深度哈希模型在训练过程中的输出结果进行约束。
在本发明实施例中,进一步地,所述利用预设的训练数据集对所述深度哈希模型进行训练,具体为:
根据所述训练数据集中的多标签数据之间的共现关系,对数据之间的相似度判定规则进行定义;
以所述相似度判定规则作为监督信息,对所述深度哈希模型进行训练。
S2、利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
S3、利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
S4、根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
进一步地,在步骤S1之前,还包括:
实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
进一步地,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
需要说明的是,本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法,通过多标签数据之间的共现关系定义数据之间的相似度,并以此作为网络训练的监督信息。设计适用于具有数字人文特征的损失函数,对网络进行训练。使用完成训练的模型提取电子邮件史料特征向量,完成检索流程,检索结果呈现为关于该关键词的历史事件轴,最终辅助数字人文领域研究。
与现有技术相比,本发明方案原理及优点如下:
本方案提供一种面向数字人文的电子邮件历史事件轴生成方法,首先,克服传统人工设定的特征在特征表示能力上不足的劣势,充分考虑电子邮件包含的跨模态数据之间复杂的相似度关系,使学习到的哈希码保留更多语义信息,从而使得跨模态检索的异构性减轻,提高检索准确率。其次,结合数字人文研究内容的时空特性,生成具备人文研究价值的结果。
需要说明的是,本发明的目的在于克服现有技术的不足,结合基于深度学习的特征表示,同时考虑电子邮件不同模态数据的多层语义相似性,应用哈希方法,通过网络训练得到数据到哈希码的映射,提供一种检索准确率更高检索方法,并将跨模态检索的技术用于数字人文领域,获得具备时空特征的、利于人文研究的结果,助力电子邮件作为电子史料的规范化保存、研究使用。
现有技术方案,针对邮件数据的检索,多是针对垃圾邮件的检测识别,是针对文本+图像的检测;本发明方案跳出垃圾邮件检索识别的思维局限,针对中文邮件,通过多年累积的海量中文样本基础,形成了数据完整、不可篡改的电子史料数据库。本发明方案提出了一个新的视域,从数字人文视域出发,将电子邮件数据与历史相结合,通过具有数字人文特征(例如:经济、政治、历史、地理、战争、法律、亲情、音乐、美术、建筑等等)的检索结果构建电子邮件历史事件轴,从而将电子邮件作为一种电子史料进行规范化,辅助数字人文研究及相关电子史料的保存与利用,助力人文学术研究。
需要说明的是,可将本发明方案的电子史料数据库理解为存放所有关于某个组织或某个人某一个时间维度的所有电子邮件的史料库。其中,历史事件的概念不是我们现在理解的类似于“安史之乱”、“五胡乱华”这种概念,本发明目的是将邮件和数字人文强绑定,提到的历史概念指未来历史学家研究当代历史(如企业发展史、名人传记)的时候,将所有的电子邮件作为一种史料,随机根据研究内容关键词搜索出所有关联的原始电子邮件史料,再根据相关技术形成的关于这个关键词的历史事件轴。
以下列举具体例子对本发明方案进行详细说明:
步骤1、将离散的电子邮件进行归档,形成原始电子邮件历史史料数据库。
通过将离散的电子邮件通过归档系统进行归档:对接收、发送和内部互发的所有邮件进行实时归档、分类,并对进行归档的邮件采用加密算法进行加密存储,保证归档内容作为电子史料不可篡改。
步骤2、设计深度哈希模型,并基于预训练的模型,迁移学习训练针对电子邮件史料的深度哈希模型,并设计损失函数:
Figure BDA0002345824860000061
通过上述损失函数,在确保训练过程中,所有的邮件正文分词对的输出结果b1和b2在±1附近。
步骤3、针对已经训练的模型,将所有邮件通过深度哈希模型生成对应的二进制哈希码,在后续检索过程中,针对特定输入的检索词语,通过深度哈希模型生成检索hash值,通过对应hash值实现邮件编码的快速检索。
步骤4、根据检索的结果以及归档邮件的时间,按照时间先后顺序生成时间轴。
需要说明的是,对于以上方法或流程实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。
请参见图2,为了解决相同的技术问题,本发明还提供了一种面向数字人文的电子邮件历史事件轴生成装置,包括:
模型训练模块1,用于建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;
邮件编码模块2,用于利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
邮件检索模块3,用于利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
事件轴生成模块4,用于根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
进一步地,所述的面向数字人文的电子邮件历史事件轴生成装置还包括邮件归档模块,用于实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
进一步地,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
可以理解的是上述装置项实施例,是与本发明方法项实施例相对应的,本发明实施例提供的一种面向数字人文的电子邮件历史事件轴生成装置,可以实现本发明任意一项方法项实施例提供的面向数字人文的电子邮件历史事件轴生成方法。
为了解决相同的技术问题,本发明还提供了一种面向数字人文的电子邮件历史事件轴生成终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
所述面向数字人文的电子邮件历史事件轴生成终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述面向数字人文的电子邮件历史事件轴生成终端设备的控制中心,利用各种接口和线路连接整个面向数字人文的电子邮件历史事件轴生成终端设备的各个部分。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
为了解决相同的技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种面向数字人文的电子邮件历史事件轴生成方法,其特征在于,包括:
建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;所述训练具体包括根据所述训练数据集中的多标签数据之间的共现关系,对数据之间的相似度判定规则进行定义;以所述相似度判定规则作为监督信息,对所述深度哈希模型进行训练;
利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
2.根据权利要求1所述的面向数字人文的电子邮件历史事件轴生成方法,其特征在于,在所述建立深度哈希模型之前,还包括:
实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
3.根据权利要求2所述的面向数字人文的电子邮件历史事件轴生成方法,其特征在于,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
4.根据权利要求1所述的面向数字人文的电子邮件历史事件轴生成方法,其特征在于,所述建立深度哈希模型,还包括:
将预设的损失函数添加到所述深度哈希模型,以通过所述损失函数对所述深度哈希模型在训练过程中的输出结果进行约束。
5.一种面向数字人文的电子邮件历史事件轴生成装置,其特征在于,包括:
模型训练模块,用于建立深度哈希模型,并利用预设的训练数据集对所述深度哈希模型进行训练;其中,所述训练数据集中的每一训练数据样本均包括多个标签;所述训练具体包括根据所述训练数据集中的多标签数据之间的共现关系,对数据之间的相似度判定规则进行定义;以所述相似度判定规则作为监督信息,对所述深度哈希模型进行训练;
邮件编码模块,用于利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码,并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中;
邮件检索模块,用于利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值,并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件;
事件轴生成模块,用于根据各个所述目标电子邮件的归档时间,按时间先后顺序生成电子邮件历史事件轴。
6.根据权利要求5所述的面向数字人文的电子邮件历史事件轴生成装置,其特征在于,还包括邮件归档模块,用于实时对目标邮件系统中的所有电子邮件进行归档,根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。
7.根据权利要求6所述的面向数字人文的电子邮件历史事件轴生成装置,其特征在于,在所述对各个电子邮件进行时间标注后,还包括:
根据预设的加密算法对归档的所有电子邮件进行加密并存储。
8.一种面向数字人文的电子邮件历史事件轴生成终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现如权利要求1至4任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至4任一项所述的面向数字人文的电子邮件历史事件轴生成方法。
CN201911422430.1A 2019-12-30 2019-12-30 一种面向数字人文的电子邮件历史事件轴生成方法及装置 Active CN111177421B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911422430.1A CN111177421B (zh) 2019-12-30 2019-12-30 一种面向数字人文的电子邮件历史事件轴生成方法及装置
PCT/CN2020/141129 WO2021136318A1 (zh) 2019-12-30 2020-12-29 一种面向数字人文的电子邮件历史事件轴生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911422430.1A CN111177421B (zh) 2019-12-30 2019-12-30 一种面向数字人文的电子邮件历史事件轴生成方法及装置

Publications (2)

Publication Number Publication Date
CN111177421A CN111177421A (zh) 2020-05-19
CN111177421B true CN111177421B (zh) 2023-07-04

Family

ID=70654324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911422430.1A Active CN111177421B (zh) 2019-12-30 2019-12-30 一种面向数字人文的电子邮件历史事件轴生成方法及装置

Country Status (2)

Country Link
CN (1) CN111177421B (zh)
WO (1) WO2021136318A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177421B (zh) * 2019-12-30 2023-07-04 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN113806580B (zh) * 2021-09-28 2023-10-20 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN116610805A (zh) * 2023-07-20 2023-08-18 恒辉信达技术有限公司 一种非结构化数据的应用方法、系统、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
US10402428B2 (en) * 2013-04-29 2019-09-03 Moogsoft Inc. Event clustering system
CN104734943B (zh) * 2015-03-17 2018-11-20 深圳市连用科技有限公司 一种电子邮件的处理方法及系统
CN108733801B (zh) * 2018-05-17 2020-06-09 武汉大学 一种面向数字人文的移动视觉检索方法
JP2019204246A (ja) * 2018-05-23 2019-11-28 株式会社日立製作所 学習データ作成方法及び学習データ作成装置
CN109033155A (zh) * 2018-06-13 2018-12-18 中国电子科技集团公司电子科学研究院 搜索邮件内容方法、装置、终端及存储介质
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109446299B (zh) * 2018-08-27 2022-08-16 中国科学院信息工程研究所 基于事件识别的搜索电子邮件内容的方法及系统
CN111177421B (zh) * 2019-12-30 2023-07-04 论客科技(广州)有限公司 一种面向数字人文的电子邮件历史事件轴生成方法及装置

Also Published As

Publication number Publication date
WO2021136318A1 (zh) 2021-07-08
CN111177421A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Li Deep learning for natural language processing: advantages and challenges
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN111177421B (zh) 一种面向数字人文的电子邮件历史事件轴生成方法及装置
Sun et al. Near real-time twitter spam detection with machine learning techniques
Wang et al. Bidirectional LSTM Malicious webpages detection algorithm based on convolutional neural network and independent recurrent neural network
US20240143700A1 (en) Multimodal Image Classifier using Textual and Visual Embeddings
US9280742B1 (en) Conceptual enhancement of automatic multimedia annotations
US10831546B2 (en) Computing task management using tree structures
US20220094713A1 (en) Malicious message detection
Mathew et al. Intelligent spam classification for mobile text message
US11436446B2 (en) Image analysis enhanced related item decision
CN113434716B (zh) 一种跨模态信息检索方法和装置
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
US11663419B2 (en) Multi-turn dialogue response generation using asymmetric adversarial machine classifiers
CN115051817B (zh) 一种基于多模态融合特征的网络钓鱼检测方法和系统
WO2019227629A1 (zh) 文本信息的生成方法、装置、计算机设备及存储介质
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
Alves et al. Leveraging BERT's Power to Classify TTP from Unstructured Text
CN111382243A (zh) 文本的类别匹配方法、类别匹配装置及终端
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
CN112307175A (zh) 一种文本处理方法、装置、服务器及计算机可读存储介质
US20200142962A1 (en) Systems and methods for content filtering of publications
CN116127925A (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
Pareek et al. Comparative Analysis of Social Media Hate Detection over Code Mixed Hindi-English Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant