CN114647734A

CN114647734A - 舆情文本的事件图谱生成方法、装置、电子设备和介质

Info

Publication number: CN114647734A
Application number: CN202011503555.XA
Authority: CN
Inventors: 黄凯鑫; 黎盈婷; 仲小琴; 唐虎; 张丽; 李元景; 李博文
Original assignee: Nuctech Technology Jiangsu Co ltd; Nuctech Co Ltd
Current assignee: Nuctech Technology Jiangsu Co ltd; Nuctech Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-06-21

Abstract

本公开提供了一种舆情文本的事件图谱生成方法、装置、电子设备和计算机可读存储介质，涉及自然语言处理技术领域。其中，舆情文本的事件图谱生成方法包括：基于舆情文本所属领域配置命名实体的实体类型以及两个命名实体之间的关系种类；基于实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；基于实体类型与关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；基于实体识别模型与实体关系抽取模型获取舆情文本中的命名实体的实体关系三元组，以基于三元组生成舆情文本的事件图谱。通过本公开的技术方案，训练生成的实体识别模型能够具有较高的识别精度。

Description

舆情文本的事件图谱生成方法、装置、电子设备和介质

技术领域

本公开涉及自然语言处理技术领域，尤其涉及一种舆情文本的事件图谱生成方法、装置、电子设备和计算机可读存储介质。

背景技术

由于互联网具有实时性、交换性以及共享性等特点，因此各种各样的网络舆情都能够通过互联网迅速传播与扩散。而用户在面对海量网络舆情时，需要快速并精准地在这些网络舆情中获取目标信息。在海关领域，网络舆情涉及到货物进出口、旅客进出境、缉私查毒等方面，因此，如何快速、准确地在海量的网络舆情中获取目标信息，已经成为了一个非常重要的研究方向。

由于在互联网上获取到的信息多为非结构的自然语言文本信息，因此需要将这些非结构化的自然语言文本信息进行结构化处理入库，以进行有效的舆情监管，相关技术中，可以基于事件图谱实现对自然语言文本的结构化处理，即基于隐马尔可夫模型(HiddenMarkov Model，HMM)先从原始文本中识别出命名实体，然后基于机器学习的方式抽取两两实体之间的关系，该实现方式目前存在以下缺陷：

HMM通过模型训练得到的规则，由于没有考虑语义以及多义词的情况，因此识别的精度不够高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种舆情文本的事件图谱生成方法、装置、电子设备和计算机可读存储介质，至少在一定程度上克服相关技术中模型识别精度不够高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种舆情文本的事件图谱生成方法，包括：基于所述舆情文本所属领域配置命名实体的实体类型以及两个所述命名实体之间的关系种类；基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组，以基于所述三元组生成所述舆情文本的事件图谱。

在一个实施例中，所述基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组包括：基于所述实体识别模型对所述舆情文本中的字符进行分类预测，以根据预测结果从所述舆情文本中识别出所述命名实体以及所述命名实体的所述实体类型；对所述舆情文本中的所述命名实体添加标注符，生成标注文本，其中，所述标注符与所述命名实体的所述实体类型对应；基于所述实体关系抽取模型从所述标注文本中获取两个所述命名实体之间的关系种类；基于所述关系种类与所述实体类型得到所述舆情文本中两个所述命名实体的所述实体关系三元组。

在一个实施例中，所述标注符包括第一标注符和第二标注符，所述对所述舆情文本中的所述命名实体添加标注符，生成标注文本包括：在所述舆情文本中的每个所述命名实体的首尾添加所述第一标注符；根据所述命名实体的所述实体类型生成匹配的所述第二标注符；将所述第二标注符添加至所述命名实体的指定位置，以生成所述标注文本。

在一个实施例中，所述基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型包括：基于所述实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集；将所述第一语料集输入所述第一BERT模型进行训练，输出与所述标注序列对应的至少一个词向量；将所述词向量输入所述第一微调网络模型进行训练，以基于训练后的所述第一BERT模型与所述第一微调网络模型生成所述实体识别模型与所述实体识别模型的训练结果，其中，所述第一微调网络模型包括第一全连接层与第一softmax逻辑回归模型。

在一个实施例中，所述基于所述实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集包括：基于顺序标注结构与预设的标注类型对所述舆情信息进行标注，得到标注序列，以将所述标注序列配置为所述第一语料集，其中，所述标注类型包括所述实体类型、以及非实体类型和填充字符类型。

在一个实施例中，所述基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型包括：基于所述实体类型与所述关系种类对用于训练的舆情信息进行标注，以基于标注结果与所述实体识别模型的训练结果生成第二语料集；将所述第二语料集输入所述第二BERT模型进行训练，输出与所述标注序列对应的句向量；将所述句向量输入所述第二微调网络模型进行训练，以基于训练后的所述第二BERT模型与所述第二微调网络模型生成所述实体关系抽取模型，其中，所述第二微调网络模型包括第二全连接层与第二softmax逻辑回归模型。

在一个实施例中，还包括：基于第一损失函数对所述实体识别模型的输出结果进行评价，得到第一评价结果；基于所述第一评价结果优化所述实体识别模型。

在一个实施例中，还包括：基于第二损失函数对所述实体关系抽取模型的输出结果进行评价，得到第二评价结果；基于所述第二评价结果优化所述实体关系抽取模型。

根据本公开的另一个方面，提供一种舆情文本的事件图谱生成装置，包括：配置模块，用于基于所述舆情文本所属领域配置命名实体的实体类型以及两个所述命名实体之间的关系种类；第一训练模块，用于基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；第二训练模块，用于基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；获取模块，用于基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组，以基于所述三元组生成所述舆情文本的事件图谱。

根据本公开的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的舆情文本的事件图谱生成方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的舆情文本的事件图谱生成方法。

本公开的实施例所提供的舆情文本的事件图谱生成方案，通过基于舆情文本所属的领域定义命名实体，以及命名实体之间的关系种类，以基于实体类型和关系种类进行模型训练，保证基于舆情文本生成的事件图谱的可靠性。

进一步地，结合实体类型数据与关系种类数据，基于BERT模型+微调模型的方式分别训练实体识别模型和实体关系抽取模型，由于BERT模型在训练过程中能够结合左右上下文中共有的条件，不但能够保证对语义解析的准确性，还能够解决舆情文本中存在的多义词，因此训练生成的实体识别模型能够具有较高的识别准确率，另外，结合实体类型数据与关系种类数据训练得到的实体关系抽取模型，也有利于保证模型使用的通用性，进一步地，采用类似的训练模型训练实体识别模型和实体关系抽取模型，也能够使训练生成的实体关系抽取模型具有较高的精度。

结合基于实体识别模型识别出的命名实体和基于实体关系抽取模型生成的实体关系得到实体关系三元组，并将多组三元组进行相连，得到高精度的舆情文本的事件图谱，进而能够使用户基于事件图谱快速了解舆情趋势，并有利于对关联事件的进一步挖掘。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开实施例中一种舆情文本的事件图谱生成系统结构的示意图；

图2示出本公开实施例中一种舆情文本的事件图谱生成方法的流程图；

图3示出本公开实施例中另一种舆情文本的事件图谱生成方法的流程图；

图4示出本公开实施例中命名实体识别模型的结构图；

图5示出本公开实施例中实体关系抽取模型的结构图；

图6示出本公开实施例的舆情文本的事件图谱的结构示意图；

图7示出本公开实施例中一种舆情文本的事件图谱生成装置的示意图；

图8示出本公开实施例中一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本申请提供的方案，通过结合基于实体识别模型识别出的命名实体和基于实体关系抽取模型生成的实体关系得到实体关系三元组，并将多组三元组进行相连，得到高精度的舆情文本的事件图谱，进而能够使用户基于事件图谱快速了解舆情趋势，并有利于对关联事件的进一步挖掘。

为了便于理解，下面首先对本申请涉及到的几个名词进行解释。

舆论情况，也可称为舆情，指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

海关领域的舆情，涉及到货物进出口、旅客进出境、缉私查毒等方方面面，且与市场经济的运转，个人生活行程息息相关。

事件图谱用于推理事件之间的关联，首先需要从原始文本中识别出感兴趣的实体名称，然后再获取两两实体间的关系，生成类似“实体A-关系B-实体C”的三元组形式，多组三元组就会形成一张关系网，也就是所说的事件图谱。根据生成的结构化的事件图谱，可以从一个感兴趣的实体以及一些感兴趣的关系，拓扑式地向外进行发散，从而可以自动并且高效地来完成网络舆情监控。

命名实体识别(Named Entity Recognition，NER)技术，具体为从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。命名实体识别技术是信息抽取、信息检索、知识图谱、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

实体间关系抽取(relationship extraction，RE)是在命名实体识别的基础上，抽取这些实体在语义上的关系的技术。

本申请实施例提供的方案涉及网络建模和机器学习等技术，具体通过如下实施例进行说明。

图1示出本公开实施例中一种舆情文本的事件图谱生成系统的结构示意图，包括多个终端120和服务器集群140。

终端120可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、智能家居设备、AR(Augmented Reality，增强现实)设备、VR(Virtual Reality，虚拟现实)设备等移动终端，或者，终端120也可以是个人计算机(Personal Computer，PC)，比如膝上型便携计算机和台式计算机等等。

其中，终端120中可以安装有用于提供的舆情文本的事件图谱生成的应用程序。

终端120与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

服务器集群140是一台服务器，或者由若干台服务器组成，或者是一个虚拟化平台，或者是一个云计算服务中心。服务器集群140用于为提供舆情文本的事件图谱生成应用程序提供后台服务。可选地，服务器集群140承担主要计算工作，终端120承担次要计算工作；或者，服务器集群140承担次要计算工作，终端120承担主要计算工作；或者，终端120和服务器集群140之间采用分布式计算架构进行协同计算。

在一些可选的实施例中，服务器集群140用于存储舆情文本的事件图谱生成模型等。

可选地，不同的终端120中安装的应用程序的客户端是相同的，或两个终端120上安装的应用程序的客户端是不同控制系统平台的同一类型应用程序的客户端。基于终端平台的不同，该应用程序的客户端的具体形态也可以不同，比如，该应用程序客户端可以是手机客户端、PC客户端或者全球广域网(World Wide Web，Web)客户端等。

本领域技术人员可以知晓，上述终端120的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

下面，将结合附图及实施例对本示例实施方式中的舆情文本的事件图谱生成方法中的各个步骤进行更详细的说明。

图2示出本公开实施例中一种舆情文本的事件图谱生成方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行，例如如图1中的终端120和/或服务器集群140。在下面的举例说明中，以终端120为执行主体进行示例说明。

如图2所示，终端120执行舆情文本的事件图谱生成方法，包括以下步骤：

步骤S202，基于舆情文本所属领域配置命名实体的实体类型以及两个命名实体之间的关系种类。

其中，命名实体指人名、机构名、地名、数字、日期、货币、地址等所有以名称为标识的实体。

具体地，基于舆情文本所属领域提供对该领域知识的共同理解，确定领域内共同认可的词汇，并从不同层次的形式化模式上给出了这些术语和词汇间相互关系的明确定义，即命名实体的实体类型以及两个命名实体之间的关系种类，实体的体系结构应该包括3个要素：核心元素集、元素间的交互作用以及这些元素到规范语义间的映射关系。

在海关领域，用于配置命名实体的实体类型以及两个命名实体之间的关系种类的数据来源可以为海关所发布的新闻信息，根据新闻信息，对命名实体以及命名实体之间的关系进行定义和配置。

具体地，将海关舆情中的命名实体划分为8个实体类型，如表1所示。为了将识别出的实体之间进行连接，根据实体类型，将实体之间的关系划分为19类，如表2所示。根据配置好的实体类型以及关系种类，进一步执行对海关舆情信息的分解，并且将分解后的信息重构为结构化的数据，从而完成事件图谱的构建。

表1

实体类型	示例
		海关名称	A市海关，首都机场海关
采取的措施或行动名称	“蓝天2020”，“春风暖企”
		物品名称	象牙，大麻
地理位置	A市，B国
		公司名称	邮政国际公司，一汽大众
人名	A君，B君
		时间	2020年1月1日；2020年第一季度
其他机构名称(除海关外)	广东省公安厅，国务院

表2

步骤S204，基于实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型。

步骤S206，基于实体类型与关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型。

其中，基于实体类型与关系种类对关联的第二BERT模型与第二微调网络进行训练，可以将对实体识别模型进行训练得到的训练结果用于实体关系抽取模型的训练中，不但能够保证两个模型结构的一致性，还能够提高实体关系抽取模型的训练效果。

具体地，BERT的全称是Bidirectional Encoder Representations fromTransformer，即基于Transformer的双向编码器。旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。因此，经过预先训练的BERT模型只需一个额外的输出层就可以进行微调，从而为各种自然语言处理任务生成最新模型。

多义词指在不同场景下具有不同意思的单词，基于Transformer的BERT在处理一个单词时，能够考虑到该词前面的和后面的单词，得到它在上下文中的含义，因此能够克服相关技术中的HMM未考虑语义与多义词的缺陷，因此基于第一BERT模型训练得到的实体识别模型，对命名实体的识别具有更高识别精度。

另外，在构建BERT模型之前，加入输入嵌入的预处理步骤，每个输入嵌入包括3个嵌入，其中，第一个嵌入为位置嵌入，BERT学习并使用位置嵌入来表达词在句子中的位置，以克服Transformer的限制，第二个嵌入为片段嵌入，即将句子对作为任务(问答)的输入，第三个嵌入为标记嵌入，用于从WordPiece标记词汇表中学习特定标记的嵌入。

基于上述的BERT预处理步骤，使BERT具有很强的通用性，因此基于第二BERT模型训练得到的实体关系抽取模型，对舆情关系的抽取具有更好的通用性。

微调网络将BERT模型中原始的全连接层切掉，并采用一个新的参数随机初始化的全连接层代替，结构更加简单，参数更少。然后将基本模型的输出作为模型的输入，完成拼接，以减少模型训练的工作量。

步骤S208，基于实体识别模型与实体关系抽取模型获取舆情文本中的命名实体的实体关系三元组，以基于三元组生成舆情文本的事件图谱。

其中，实体关系三元组可以表示为实体A-关系B-实体C，将多组三元组进行相连，生成舆情文本的事件图谱。

在该实施例中，通过基于舆情文本所属的领域定义命名实体，以及命名实体之间的关系种类，以基于实体类型和关系种类进行模型训练，保证基于舆情文本生成的事件图谱的可靠性。

在一个实施例中，步骤S208基于实体识别模型与实体关系抽取模型获取舆情文本中的命名实体的实体关系三元组的一种具体实现方式，包括：

步骤S302，基于实体识别模型对舆情文本中的字符进行分类预测，以根据预测结果从舆情文本中识别出命名实体以及命名实体的实体类型。

其中，图4示出了实体识别模型的结构图，可以预设最长序列长度，如果舆情文本的长度小于该最长序列长度时，不足的部分使用填充字符标记位进行标记，如图4所示，输入端在句首和句尾分别加入了[CLS]标记位和[SEP]标记位，两个标记位之间为原始的舆情文本。

如图4所示，将原始的舆情文本输入实体识别模型，经过第一BERT模型402后，每个字对应输出一个词向量，进一步通过第一微调网络模型404，得到输出的预测结果，即舆情文本每一个字所对应的分类结果，将分类结果中满足“B-I-E”(即起始字符-中间字符-结尾字符)结构的信息提取出来，得到命名实体及其类型。

在步骤S302之后，还包括：对舆情文本中的命名实体添加标注符，生成标注文本，其中，标注符与命名实体的实体类型对应。

其中，将实体类型以标注符的形式添加到舆情文本中，以基于实体识别模型的识别结果对舆情文本进行标注。

作为一种优选的实施方式，标注符包括第一标注符和第二标注符，对舆情文本中的命名实体添加标注符，生成标注文本包括：

步骤S304，在舆情文本中的每个命名实体的首尾添加第一标注符。

例如，第一标注符为“#”，标注方式为在实体名称前后用“#”符号标记实体名称的起止位置。

步骤S306，根据命名实体的实体类型生成匹配的第二标注符，将第二标注符添加至命名实体的指定位置，以生成标注文本。

例如，在实体名称后紧接着添加第二标注符，第二标注符包括两个“$”以及两个“$”符号之间的数字，两个“$”符号标记实体类别，两个“$”符号之间的数字为实体类别标识。

其中，表4示出了用于实体关系抽取的标注方式实例。

步骤S308，基于实体关系抽取模型从标注文本中获取两个命名实体之间的关系种类。

其中，在识别出命名实体的基础上，进一步将包括实体识别模型的识别结果的标注文本输入实体关系抽取模型，得到命名实体之间的关系种类。

具体地，实体之间的关系抽取是在命名实体识别的基础上，抽取这些实体在语义上的关系。在进行过命名实体识别后，虽然已经从原始的自然语言文本中抽取出了各种实体的名称及其对应的类别，但是这些实体无法联系起来，而关系抽取，则将这些无法关联起来的实体之间赋予关系，从而让识别出来的实体能够通过各种关系而形成关联网络。

基于表2中定义的不同实体类型之间的关系种类，将实体间关系抽取任务就转变为了一个多分类任务。按照附表4的标注方式对舆情文本进行标注后，输入图5所示的实体关系抽取模型中，即可得到感兴趣的一对实体在上下文之间是否有附表2中所定义的关系种类。

分别如图4和图5所示，实体关系抽取模型与命名实体识别模型具有相似的结构，不同的是，在实体关系抽取模型中，标注文本经过第二BERT模型502之后得到句向量504，而命名实体识别模型所得到的则为序列的词向量，并且在经过第二微调网络模型506后，得到的为整个语句的分类结果，即需要提取的关系种类508。

步骤S310，基于关系种类与实体类型得到舆情文本中两个命名实体的实体关系三元组。

在该实施例中，在基于命名实体识别模型识别出舆情文本中的命名实体之后，基于命名实体的类型对舆情文本进行标注，并相应生成标注文本，将标注文本输入到实体关系提取模型中，以得到相关的两个命名实体之间的关系种类，以保证关系抽取与实体识别之间的关联性，进而保证生成的实体关系三元组能够将具有相似目的的事件进行关联，从而使得到的事件图片的实用性更高。

在一个实施例中，基于实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型包括：基于实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集；将第一语料集输入第一BERT模型进行训练，输出与标注序列对应的至少一个词向量；将词向量输入第一微调网络模型进行训练，以基于训练后的第一BERT模型与第一微调网络模型生成实体识别模型与实体识别模型的训练结果，其中，第一微调网络模型包括第一全连接层与第一softmax逻辑回归模型。

其中，全连接层指能够实现前面一层的每个单元都与后面一层的相连接的中间层。

softmax用于实现归一化操作，通过在softmax层之前增加全连接层，保证softmax的输入层和输出层的维度一致。

在一个实施例中，基于实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集包括：基于顺序标注结构与预设的标注类型对舆情信息进行标注，得到标注序列，以将标注序列配置为第一语料集，其中，标注类型包括实体类型、以及非实体类型和填充字符类型。

其中，顺序标注结构即上述的起始字符-中间字符-结尾字符结构。表3示出了一种舆情信息的标注示例，其中，起始字符、中间字符与结尾字符中的数字表示实体类型，非实体类型用“O”表示，填充字符类型用“PAD”表示。

表3

具体地，如表3所示，对于海关的舆情文本，前8类均为实体类型，分别为“海关名称”、“采取的措施或行动名称”、“物品名称”、“地理位置”、“公司名称”、“人名”、“时间”和“其他机构名称(除海关外)”，第9类为非实体的其余文字的标注，对于自然语言文本信息，其长度是不定长的，因此，会设置一个最长序列长度，如果自然语言文本的长度小于该最长序列长度时，不足的部分使用填充字符标记位进行标记。

在该实施例中，通过采用表3所示的标注方式对训练的舆情信息进行标注得到第一语料集，以基于第一语料集对第一BERT模型与第一微调网络进行训练得到的命名实体识别模型，能够准确的应用于海关领域，以使相关用户快速掌握感兴趣的相关信息。

在一个实施例中，基于实体类型与关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型包括：基于实体类型与关系种类对用于训练的舆情信息进行标注，以基于标注结果与实体识别模型的训练结果生成第二语料集；将第二语料集输入第二BERT模型进行训练，输出与标注序列对应的句向量；将句向量输入第二微调网络模型进行训练，以基于训练后的第二BERT模型与第二微调网络模型生成实体关系抽取模型，其中，第二微调网络模型包括第二全连接层与第二softmax逻辑回归模型。

在该实施例中，基于表2中定义不同实体类型之间的关系，将需要考虑的两个实体在舆情文本中采用特殊符号进行标明，并且同时也将其实体类型进行标明，得到第二语料集，具体标注方式如表4所示。即在实体名称前后用第一标注符“#”符号标记实体名称的起止位置，在实体名称后紧接着用第二标注符，即两个“$”符号标记实体类型，两个“$”符号之间的数字为实体相应的类别。

表4

在完成标注工作并生成标注好的语料之后，就将标注后文本输入网络，网络结构，得到图5所示的实体关系抽取模型，通过结合标注结果与实体识别模型的训练结果生成第二语料集，能够保证实体识别模型与实体关系抽取模型之间具有较好的适配精度，进而保证得到的三元组的准确性。

在一个实施例中，还包括：基于第一损失函数对实体识别模型的输出结果进行评价，得到第一评价结果；基于第一评价结果优化实体识别模型。

其中，经过图4所示的实体识别模型后，损失函数定义为：

式中M为单独一个自然语言文本序列中token的数量，N为batch size。y_i，j为原始label，

为预测结果。在训练过程中，不仅仅对微调网络模型进行训练，也会同时对BERT模型中的参数进行训练。

在一个实施例中，还包括：基于第二损失函数对实体关系抽取模型的输出结果进行评价，得到第二评价结果；基于第二评价结果优化实体关系抽取模型。

其中，经过图5所示的实体关系抽取模型后，损失函数定义为：

其中N为batch size，y_i为原始label，

为SOFTMAX输出的预测值。在训练过程中，不仅仅对微调网络模型进行训练，也会同时对BERT模型中的参数进行训练。

例如，舆情文本为一则海关新闻，主要内容如下：

A市海关所述B县海关检查科C某和D某在周末一大早来到了B县花卉有限公司的蝴蝶兰鲜切花包装间，对2048株切花进行随包随检，快检快放，在企业现场签发了检验检疫证书。后这批蝴蝶兰鲜切花装入集装箱启程发往韩国，以实现淮安海关精准助力蝴蝶兰鲜切花再次“花开”韩国市场。

将上述舆情文本输入图4所示的命名识别模型，命名实体的识别结果表5所示。

表5

将上述舆情文本输入图5所示的命名关系抽取模型，实体关系抽取结果表6所示。

表6

得到的海关事件图谱如图6所示。

在该实施例中，海关事件图谱将非结构化、碎片化的舆情文本转换成结构化的、带有行业聚焦度的结构化数据，便于舆情知识的组织与管理，同时也利于全局的、快速的掌控舆情态势，其在海关业务领域的运用场景有：

商品进出口分析：通过将进出口商品图谱相关联，可以准确掌控商品的相关的进出口口岸、目的地、原产地、报关公司等，便于对商品的贸易动向把控。

案情关联分析：相似的案情往往有相似的作案行为，通过将查获禁限品的案件关联，可有效对案件信息进行整理与线索挖掘。

专项行动分析：将相似目的的专项行动进行关联，可以联动分析各关区的打击违法犯罪行为的效果。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的舆情文本的事件图谱生成装置700。图7所示的舆情文本的事件图谱生成装置700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

舆情文本的事件图谱生成装置700以硬件模块的形式表现。舆情文本的事件图谱生成装置700的组件可以包括但不限于：配置模块702，用于基于舆情文本所属领域配置命名实体的实体类型以及两个命名实体之间的关系种类；第一训练模块704，用于基于实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；第二训练模块706，用于基于实体类型与关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；获取模块708，用于基于实体识别模型与实体关系抽取模型获取舆情文本中的命名实体的实体关系三元组，以基于三元组生成舆情文本的事件图谱。

在一个实施例中，获取模块708还用于：基于实体识别模型对舆情文本中的字符进行分类预测，以根据预测结果从舆情文本中识别出命名实体以及命名实体的实体类型；对舆情文本中的命名实体添加标注符，生成标注文本，其中，标注符与命名实体的实体类型对应；基于实体关系抽取模型从标注文本中获取两个命名实体之间的关系种类；基于关系种类与实体类型得到舆情文本中两个命名实体的实体关系三元组。

在一个实施例中，标注符包括第一标注符和第二标注符，获取模块708还用于：在舆情文本中的每个命名实体的首尾添加第一标注符；根据命名实体的实体类型生成匹配的第二标注符；将第二标注符添加至命名实体的指定位置，以生成标注文本。

在一个实施例中，第一训练模块704还用于：基于实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集；将第一语料集输入第一BERT模型进行训练，输出与标注序列对应的至少一个词向量；将词向量输入第一微调网络模型进行训练，以基于训练后的第一BERT模型与第一微调网络模型生成实体识别模型，其中，第一微调网络模型包括第一全连接层与第一softmax逻辑回归模型。

在一个实施例中，第一训练模块704还用于：基于顺序标注结构与预设的标注类型对舆情信息进行标注，得到标注序列，以将标注序列配置为第一语料集，其中，标注类型包括实体类型、以及非实体类型和填充字符类型。

在一个实施例中，第二训练模块706还用于：基于实体类型与关系种类对用于训练的舆情信息进行标注，以基于标注结果生成第二语料集；将第二语料集输入第二BERT模型进行训练，输出与标注序列对应的句向量；将句向量输入第二微调网络模型进行训练，以基于训练后的第二BERT模型与第二微调网络模型生成实体关系抽取模型，其中，第二微调网络模型包括第二全连接层与第二softmax逻辑回归模型。

在一个实施例中，还包括：第一评价模块710，用于基于第一损失函数对实体识别模型的输出结果进行评价，得到第一评价结果；基于第一评价结果优化实体识别模型。

在一个实施例中，还包括：第二评价模块712，用于基于第二损失函数对实体关系抽取模型的输出结果进行评价，得到第二评价结果；基于第二评价结果优化实体关系抽取模型。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中，存储单元存储有程序代码，程序代码可以被处理单元1010执行，使得处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1010可以执行如图2中所示的步骤S202、S204、S206与S208，以及本公开的舆情文本的事件图谱生成方法中限定的其他步骤。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备860(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器850与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器850通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种舆情文本的事件图谱生成方法，其特征在于，包括：

基于所述舆情文本所属领域配置命名实体的实体类型以及两个所述命名实体之间的关系种类；

基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；

基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；

基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组，以基于所述三元组生成所述舆情文本的事件图谱。

2.根据权利要求1所述的舆情文本的事件图谱生成方法，其特征在于，所述基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组包括：

基于所述实体识别模型对所述舆情文本中的字符进行分类预测，以根据预测结果从所述舆情文本中识别出所述命名实体以及所述命名实体的所述实体类型；

对所述舆情文本中的所述命名实体添加标注符，生成标注文本，其中，所述标注符与所述命名实体的所述实体类型对应；

基于所述实体关系抽取模型从所述标注文本中获取两个所述命名实体之间的关系种类；

基于所述关系种类与所述实体类型得到所述舆情文本中两个所述命名实体的所述实体关系三元组。

3.根据权利要求2所述的舆情文本的事件图谱生成方法，其特征在于，所述标注符包括第一标注符和第二标注符，所述对所述舆情文本中的所述命名实体添加标注符，生成标注文本包括：

在所述舆情文本中的每个所述命名实体的首尾添加所述第一标注符；

根据所述命名实体的所述实体类型生成匹配的所述第二标注符；

将所述第二标注符添加至所述命名实体的指定位置，以生成所述标注文本。

4.根据权利要求1所述的舆情文本的事件图谱生成方法，其特征在于，所述基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型包括：

基于所述实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集；

将所述第一语料集输入所述第一BERT模型进行训练，输出与所述标注序列对应的至少一个词向量；

将所述词向量输入所述第一微调网络模型进行训练，以基于训练后的所述第一BERT模型与所述第一微调网络模型生成所述实体识别模型与所述实体识别模型的训练结果，

其中，所述第一微调网络模型包括第一全连接层与第一softmax逻辑回归模型。

5.根据权利要求4所述的舆情文本的事件图谱生成方法，其特征在于，所述基于所述实体类型对用于训练的舆情信息进行标注，以基于标注结果生成第一语料集包括：

基于顺序标注结构与预设的标注类型对所述舆情信息进行标注，得到标注序列，以将所述标注序列配置为所述第一语料集，

其中，所述标注类型包括所述实体类型、以及非实体类型和填充字符类型。

6.根据权利要求4所述的舆情文本的事件图谱生成方法，其特征在于，所述基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型包括：

基于所述实体类型与所述关系种类对用于训练的舆情信息进行标注，以基于标注结果与所述实体识别模型的训练结果生成第二语料集；

将所述第二语料集输入所述第二BERT模型进行训练，输出与所述标注序列对应的句向量；

将所述句向量输入所述第二微调网络模型进行训练，以基于训练后的所述第二BERT模型与所述第二微调网络模型生成所述实体关系抽取模型，

其中，所述第二微调网络模型包括第二全连接层与第二softmax逻辑回归模型。

7.根据权利要求1至6中任一项所述的舆情文本的事件图谱生成方法，其特征在于，还包括：

基于第一损失函数对所述实体识别模型的输出结果进行评价，得到第一评价结果；

基于所述第一评价结果优化所述实体识别模型。

8.根据权利要求1至6中任一项所述的舆情文本的事件图谱生成方法，其特征在于，还包括：

基于第二损失函数对所述实体关系抽取模型的输出结果进行评价，得到第二评价结果；

基于所述第二评价结果优化所述实体关系抽取模型。

9.一种舆情文本的事件图谱生成装置，其特征在于，包括：

配置模块，用于基于所述舆情文本所属领域配置命名实体的实体类型以及两个所述命名实体之间的关系种类；

第一训练模块，用于基于所述实体类型对关联的第一BERT模型与第一微调网络进行训练，生成实体识别模型；

第二训练模块，用于基于所述实体类型与所述关系种类对关联的第二BERT模型与第二微调网络进行训练，生成实体关系抽取模型；

获取模块，用于基于所述实体识别模型与所述实体关系抽取模型获取所述舆情文本中的所述命名实体的实体关系三元组，以基于所述三元组生成所述舆情文本的事件图谱。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～8中任意一项所述的舆情文本的事件图谱生成方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～8中任意一项所述的舆情文本的事件图谱生成方法。