CN111177421B

CN111177421B - 一种面向数字人文的电子邮件历史事件轴生成方法及装置

Info

Publication number: CN111177421B
Application number: CN201911422430.1A
Authority: CN
Inventors: 林延中; 杨芸; 朱南皓; 潘文辉; 彭文浩; 许佳柱
Original assignee: Lunkr Technology Guangzhou Co Ltd
Current assignee: Lunkr Technology Guangzhou Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-07-04
Anticipated expiration: 2039-12-30
Also published as: WO2021136318A1; CN111177421A

Abstract

本发明提供了一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质，方法包括：建立深度哈希模型，并利用训练数据集对深度哈希模型进行训练；利用训练好的深度哈希模型对预先归档的电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值并进行检索以提取出目标电子邮件；根据各个目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。本发明能够将深度学习应用于电子邮件检索，并对检索到的电子邮件生成电子邮件历史事件轴，从而能够有效辅助数字人文研究及相关电子史料的保存与利用、助力人文学术研究。

Description

一种面向数字人文的电子邮件历史事件轴生成方法及装置

技术领域

本发明涉及邮件检索领域，尤其是涉及一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质。

背景技术

在数字人文领域，传统人文历史研究也受到了诸如人工智能、深度学习的影响，产生了以技术辅助人文研究的新趋势。传统历史的研究依赖于纸质史料，随着互联网的普及，未来历史学家对当代历史的研究将会由传统纸质史料转为电子史料，电子邮件作为传统信件在信息社会里的新形式，能帮助各个群体更好地开展各方面的当代历史研究，为现实行为提供合法依据。

由于不同数据的异构性，以及传统手工设计特征在特征表示上能力不足，传统的跨模态检索方法不能有效地通过多模态数据的关联关系来降低其异构性，从而无法取得更好的效果。

同时，就提取电子邮件信息作为面向数字人文的历史事件轴而言，“语义鸿沟”问题是当今的难点问题，将深度学习应用于电子邮件检索，为解决异质数据之间的“媒体鸿沟”提供了大量特征学习与表示方面先进的研究成果。但是，传统检索技术不能有效捕捉在数字人文视域下，电子邮件包含的历史信息的空间性和时间性，无法学习强大的特征表示和跨模态嵌入，因而无法生成用于数字人文研究的高质量、紧凑的哈希编码，导致不能取得较好的检索效果。

发明内容

本发明实施例所要解决的技术问题在于，提供一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质，能够将深度学习应用于电子邮件检索，并对检索到的电子邮件生成电子邮件历史事件轴，进而有效辅助数字人文研究及相关电子史料的保存与利用。

为了解决上述技术问题，本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法，包括：

建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；

利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；

利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值，并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件；

根据各个所述目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。

进一步地，在所述建立深度哈希模型之前，还包括：

实时对目标邮件系统中的所有电子邮件进行归档，根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。

进一步地，在所述对各个电子邮件进行时间标注后，还包括：

根据预设的加密算法对归档的所有电子邮件进行加密并存储。

进一步地，所述建立深度哈希模型，还包括：

将预设的损失函数添加到所述深度哈希模型，以通过所述损失函数对所述深度哈希模型在训练过程中的输出结果进行约束。

进一步地，所述利用预设的训练数据集对所述深度哈希模型进行训练，具体为：

根据所述训练数据集中的多标签数据之间的共现关系，对数据之间的相似度判定规则进行定义；

以所述相似度判定规则作为监督信息，对所述深度哈希模型进行训练。

为了解决相同的技术问题，本发明还提供了一种面向数字人文的电子邮件历史事件轴生成装置，包括：

模型训练模块，用于建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；

邮件编码模块，用于利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；

邮件检索模块，用于利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值，并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件；

事件轴生成模块，用于根据各个所述目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。

进一步地，所述的面向数字人文的电子邮件历史事件轴生成装置还包括邮件归档模块，用于实时对目标邮件系统中的所有电子邮件进行归档，根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。

为了解决相同的技术问题，本发明还提供了一种面向数字人文的电子邮件历史事件轴生成终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现任一项所述的面向数字人文的电子邮件历史事件轴生成方法。

为了解决相同的技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的面向数字人文的电子邮件历史事件轴生成方法。

与现有技术相比，本发明具有如下有益效果：

本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法、装置、终端设备及可读存储介质，所述方法包括：建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值，并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件；根据各个所述目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。本发明能够将深度学习应用于电子邮件检索，并对检索到的电子邮件生成电子邮件历史事件轴，从而能够有效辅助数字人文研究及相关电子史料的保存与利用、助力人文学术研究。

附图说明

图1是本发明一实施例提供的面向数字人文的电子邮件历史事件轴生成方法的流程示意图；

图2是本发明一实施例提供的面向数字人文的电子邮件历史事件轴生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法，包括步骤：

S1、建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；

在本发明实施例中，进一步地，所述建立深度哈希模型，还包括：

在本发明实施例中，进一步地，所述利用预设的训练数据集对所述深度哈希模型进行训练，具体为：

S2、利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；

S3、利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值，并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件；

S4、根据各个所述目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。

进一步地，在步骤S1之前，还包括：

需要说明的是，本发明实施例提供了一种面向数字人文的电子邮件历史事件轴生成方法，通过多标签数据之间的共现关系定义数据之间的相似度，并以此作为网络训练的监督信息。设计适用于具有数字人文特征的损失函数，对网络进行训练。使用完成训练的模型提取电子邮件史料特征向量，完成检索流程，检索结果呈现为关于该关键词的历史事件轴，最终辅助数字人文领域研究。

与现有技术相比，本发明方案原理及优点如下：

本方案提供一种面向数字人文的电子邮件历史事件轴生成方法，首先，克服传统人工设定的特征在特征表示能力上不足的劣势，充分考虑电子邮件包含的跨模态数据之间复杂的相似度关系，使学习到的哈希码保留更多语义信息，从而使得跨模态检索的异构性减轻，提高检索准确率。其次，结合数字人文研究内容的时空特性，生成具备人文研究价值的结果。

需要说明的是，本发明的目的在于克服现有技术的不足，结合基于深度学习的特征表示，同时考虑电子邮件不同模态数据的多层语义相似性，应用哈希方法，通过网络训练得到数据到哈希码的映射，提供一种检索准确率更高检索方法，并将跨模态检索的技术用于数字人文领域，获得具备时空特征的、利于人文研究的结果，助力电子邮件作为电子史料的规范化保存、研究使用。

现有技术方案，针对邮件数据的检索，多是针对垃圾邮件的检测识别，是针对文本+图像的检测；本发明方案跳出垃圾邮件检索识别的思维局限，针对中文邮件，通过多年累积的海量中文样本基础，形成了数据完整、不可篡改的电子史料数据库。本发明方案提出了一个新的视域，从数字人文视域出发，将电子邮件数据与历史相结合，通过具有数字人文特征(例如：经济、政治、历史、地理、战争、法律、亲情、音乐、美术、建筑等等)的检索结果构建电子邮件历史事件轴，从而将电子邮件作为一种电子史料进行规范化，辅助数字人文研究及相关电子史料的保存与利用，助力人文学术研究。

需要说明的是，可将本发明方案的电子史料数据库理解为存放所有关于某个组织或某个人某一个时间维度的所有电子邮件的史料库。其中，历史事件的概念不是我们现在理解的类似于“安史之乱”、“五胡乱华”这种概念，本发明目的是将邮件和数字人文强绑定，提到的历史概念指未来历史学家研究当代历史(如企业发展史、名人传记)的时候，将所有的电子邮件作为一种史料，随机根据研究内容关键词搜索出所有关联的原始电子邮件史料，再根据相关技术形成的关于这个关键词的历史事件轴。

以下列举具体例子对本发明方案进行详细说明：

步骤1、将离散的电子邮件进行归档，形成原始电子邮件历史史料数据库。

通过将离散的电子邮件通过归档系统进行归档：对接收、发送和内部互发的所有邮件进行实时归档、分类，并对进行归档的邮件采用加密算法进行加密存储，保证归档内容作为电子史料不可篡改。

步骤2、设计深度哈希模型，并基于预训练的模型，迁移学习训练针对电子邮件史料的深度哈希模型，并设计损失函数：

通过上述损失函数，在确保训练过程中，所有的邮件正文分词对的输出结果b₁和b₂在±1附近。

步骤3、针对已经训练的模型，将所有邮件通过深度哈希模型生成对应的二进制哈希码，在后续检索过程中，针对特定输入的检索词语，通过深度哈希模型生成检索hash值，通过对应hash值实现邮件编码的快速检索。

步骤4、根据检索的结果以及归档邮件的时间，按照时间先后顺序生成时间轴。

需要说明的是，对于以上方法或流程实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参见图2，为了解决相同的技术问题，本发明还提供了一种面向数字人文的电子邮件历史事件轴生成装置，包括：

模型训练模块1，用于建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；

邮件编码模块2，用于利用训练好的深度哈希模型对预先归档的所有电子邮件进行哈希编码，并将得到的邮件哈希码与对应的邮件进行关联存储到邮件史料数据库中；

邮件检索模块3，用于利用训练好的深度哈希模型根据获取到的检索语句生成检索哈希值，并根据所述检索哈希值对所述邮件史料数据库进行检索以提取出目标电子邮件；

事件轴生成模块4，用于根据各个所述目标电子邮件的归档时间，按时间先后顺序生成电子邮件历史事件轴。

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的一种面向数字人文的电子邮件历史事件轴生成装置，可以实现本发明任意一项方法项实施例提供的面向数字人文的电子邮件历史事件轴生成方法。

所述面向数字人文的电子邮件历史事件轴生成终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述面向数字人文的电子邮件历史事件轴生成终端设备的控制中心，利用各种接口和线路连接整个面向数字人文的电子邮件历史事件轴生成终端设备的各个部分。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向数字人文的电子邮件历史事件轴生成方法，其特征在于，包括：

建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；所述训练具体包括根据所述训练数据集中的多标签数据之间的共现关系，对数据之间的相似度判定规则进行定义；以所述相似度判定规则作为监督信息，对所述深度哈希模型进行训练；

2.根据权利要求1所述的面向数字人文的电子邮件历史事件轴生成方法，其特征在于，在所述建立深度哈希模型之前，还包括：

3.根据权利要求2所述的面向数字人文的电子邮件历史事件轴生成方法，其特征在于，在所述对各个电子邮件进行时间标注后，还包括：

4.根据权利要求1所述的面向数字人文的电子邮件历史事件轴生成方法，其特征在于，所述建立深度哈希模型，还包括：

5.一种面向数字人文的电子邮件历史事件轴生成装置，其特征在于，包括：

模型训练模块，用于建立深度哈希模型，并利用预设的训练数据集对所述深度哈希模型进行训练；其中，所述训练数据集中的每一训练数据样本均包括多个标签；所述训练具体包括根据所述训练数据集中的多标签数据之间的共现关系，对数据之间的相似度判定规则进行定义；以所述相似度判定规则作为监督信息，对所述深度哈希模型进行训练；

6.根据权利要求5所述的面向数字人文的电子邮件历史事件轴生成装置，其特征在于，还包括邮件归档模块，用于实时对目标邮件系统中的所有电子邮件进行归档，根据邮件收件时间或邮件发件时间对各个电子邮件进行时间标注并存储。

7.根据权利要求6所述的面向数字人文的电子邮件历史事件轴生成装置，其特征在于，在所述对各个电子邮件进行时间标注后，还包括：

8.一种面向数字人文的电子邮件历史事件轴生成终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现如权利要求1至4任一项所述的面向数字人文的电子邮件历史事件轴生成方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至4任一项所述的面向数字人文的电子邮件历史事件轴生成方法。