CN114265932A

CN114265932A - 一种融入深度语义关系分类的事件脉络生成方法及系统

Info

Publication number: CN114265932A
Application number: CN202111530106.9A
Authority: CN
Inventors: 周小敏; 应鸿晖; 刁则鸣; 聂芹芹; 石易; 王玉杰; 张震; 吴飞; 卓采标; 方四安; 李博
Original assignee: Guangzhou Branch Center Of National Computer Network And Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: Guangzhou Branch Center Of National Computer Network And Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-01

Abstract

本发明公开一种融入深度语义关系分类的事件脉络生成方法及系统，所述方法包括如下步骤：对新闻数据集合进行分词，合并后生成词文档序列；训练主题模型，利用训练好的主题模型来完成主题的聚类，得到主题聚类结果；将所有的关键词拼接后输入到bert模型中，最终的新闻文本向量表示为所有token的向量的平均；对于每个主题下获得的所有事件进行分支确定，得到每个主题对应的分支集合，将每个分支中的事件按照时间先后顺序连接，并将分支也按照时间先后顺序连接，即按照分支中最早事件的时间先后顺序连接，最终获得事件脉络。本发明通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程。

Description

一种融入深度语义关系分类的事件脉络生成方法及系统

技术领域

本发明涉及一种融入深度语义关系分类的事件脉络生成方法及系统，属于语言处理技术领域。

背景技术

社交网络已被广泛用于发布新闻和报道事件。社交网络中信息的实时性和快速传播的能力使其成为获取信息的重要媒介，短文本的表述方式也能够有效地传递关键信息。社交网络的这些特性颠覆了传统媒体在信息传播上的统治力，这使其为监控事件及其演化提供了宝贵数据。然而，社交网络中文本的快速积累以及口语化的表达方式使得监控事件及事件间的演化具有极大挑战。从社交网络文本中对具有同一主题的事件及其演化进行提取能够极大地帮助我们在全景上对某一事件进行了解。例如：我们期望获得关于平昌冬奥会所有项目(即事件)的信息和这些项目的进程(即事件演化)。这需要我们首先检测事件，而后对这些事件进行聚类从而获得具有同一主题的事件(即故事)，并最终以一种用户友好的方式(故事脉络)呈现出来。另外，深度学习和机器学习技术近几年快速发展，但在事件脉络的生成任务中仍然存在一些问题：1)事件由文本集合表示且有特定主题，如何从文本集合提取与事件对应的强相关的文本集合是一个关键问题；2)在生成事件脉络结构的过程中，如何从全局的角度来进行事件脉络的构建，提高脉络结构的连贯性及整体性也是一个亟待解决的问题。

事件脉络生成方法可分为两个部分：1)事件检测，2)脉络生成。事件检测是在海量的新闻数据集合中，将描述相同事件的新闻划分为一组，其中同一事件一般指的是多篇新闻描述所涉及的时间、地点、实体以及伴随结果相同；脉络生成则是以结构化的方式跟踪和揭示事件是如何随着时间发展的。事件脉络展示的是一个主题的发展过程，即一个主要事件以及其发展后续事件的集合。

现有的事件检测方法主要包括两类：基于文档的检测方法与基于关键词的检测方法。基于文档的检测方法主要是以新闻内容特征为基础，一般是基于相似度来度量事件之间的联系。如：Wu等人利用TF-IDF提取的文档特征向量计算余弦相似度，根据相似度来划分事件，而Zhou等人提出基于词频-逆事件频率(TF×IEF)和时间距离成本因子的混合模型，用TF×IEF把事件建模为向量，然后根据余弦相似度衡量事件内容的相似性，从而完成事件的检测。另外，Ozdikis等在时间窗口内对数据进行在线处理，在计算新时间窗口内的推文和已存在的活跃簇之间的相似度时，利用当前时间窗口以及前后各一个时间窗口内的上下文计算词汇之间的共现向量，然后利用该向量计算词汇之间的相似度并和TF-IDF值相乘生成最终的向量表示，这是对TF-IDF向量表示的一个扩展，能够很好地解决随时间的推移而发生的概念漂移问题，最后利用一个特定的词汇在相关事件内的词频随时间变化的模式分析该事件的强度演变过程。

基于关键词的事件检测方法主要是考虑到在事件出现时，某些特征词的频率会急剧上升，通过分析这些特征词来进行事件的识别与发现。如：Yang基于关键词的共现特征来构造关键词共现图，并选用社区检测算法对该关键词共现图进行划分，利用提取出的主题特征词来实现主题事件的划分。还有的，基于关键词来进行新闻表示，采用聚类算法来进行主题或事件检测。常见的聚类方法有基于密度的聚类、基于划分的聚类、基于层次的聚类以及基于增量的聚类。

目前已知的脉络生成方法中，事件脉络的表示形式主要有以下三个结构：时间轴结构，平面结构和图结构。在这三种结构中，时间轴结构通过事件的时间演化顺序直接连接事件，结构较为简单，该方法是将获取的事件直接根据事件的时间先后顺序生成事件脉络；平面结构为一个主事件向外发散，该方法主要是确定一个核心事件，其余事件均认为是该事件的发展后续；图结构分析了不同故事分支中事件之间的关联，较为复杂，该方法中，基于获取的事件，构建一个有向图或无向图，并以最小生成树或最大生成树作为最终的事件脉络结构。

发明内容

现有技术的缺点在于如下两点。(1)现有的事件检测方法存在很多的不足：(a)在现有的基于关键词的事件检测方法中，关键词的效果在很大程度上决定了事件检测的准确性，但是目前的关键词方法，大多选用textrank或TF-IDF等方法获得，这些方法大多获取的关键词更倾向于一些实体词等，并不能完整体现事件的含义；(b)聚类技术中，在基于TF-IDF向量、word2vec词向量的事件检测方法都是针对文本的浅层语义特征，词之间各自独立，无法反映序列信息，词向量相似度求解过程中，同义问题难以区分，无法获取精细的准确事件信息，从而导致事件检测不够准确，不能准确地描述事件发展过程；(c)另外，在海量的新闻数据中，大多使用有监督方法，这种情况下造成很大的人工压力，同时这种发展性的事件也不能保证质量的好坏。(2)现有事件脉络生成方法缺乏对事件之间深层演变关系的考虑，只是简单地根据时间顺序，或根据当前节点与前序所有节点的最大相似度来确定当前节点的脉络分支，无法应对事件的后续发展中出现与原始事件极度偏离的主题偏移情况，从而难以准确展现演变关系。

本发明的目的在于，克服现有技术存在的技术缺点，提出一种融入深度语义关系分类的事件脉络生成方法及系统，解决如下技术需求：(1)在主题事件划分阶段，基于主题模型来完成主题事件划分，神经主题模型能有效获取文本的深层语义特征，同时采用无监督的形式，在不降低准确率的同时减少了标注压力；(2)在事件检测阶段，选用依存句法分析来获取关键词，基于深度语义关系能更加准确的描述新闻描述的核心内容；(3)在脉络生成阶段，根据关键词的变化来确定分支，生成脉络，充分考虑事件的发展关系。

本发明具体采用如下技术方案：一种融入深度语义关系分类的事件脉络生成方法，包括如下步骤：

数据预处理步骤，具体包括：对新闻数据集合D＝[d₁,d₂,…d_|D|]进行分词，合并后生成词文档序列v＝[v₁,v₂,…v_D]；

主题聚类步骤，具体包括：训练主题模型，利用训练好的主题模型来完成主题的聚类，对于新闻数据集合D＝[d₁,d₂,…d_|D|]，经过主题模型后，得到每篇新闻数据对于各个主题的概率p_i，最终根据所述概率p_i，将新闻数据集合D划分为多个类别，得到主题聚类结果T＝{T₁,T₂,…T_|T|}，其中T_i为新闻数据的集合；

事件聚类步骤，具体包括：获取新闻数据集合D的关键词，对每个主题聚类结果

中的新闻t_i，采用bert模型对每篇新闻数据进行向量化，即将所有的关键词拼接后输入到bert模型中，最终的新闻文本向量表示为所有token的向量的平均；其中，

w_i为新闻数据的第i个关键词，

脉络生成步骤，具体包括：对于每个主题下获得的所有事件

进行分支确定，得到每个主题对应的分支集合B＝{branch₁,branch₂,…branch_|B|}，其中branch_i为第i个分支所对应的事件集合；将每个分支中的事件按照时间先后顺序连接，并将分支也按照时间先后顺序连接，即按照分支中最早事件的时间先后顺序连接，最终获得事件脉络。

作为一种较佳的实施例，所述训练主题模型具体包括：

对于词文档序列v＝[v₁,v₂,…v_D]，其中D为该词文档序列所包含的词数，v_i∈{1,…,V}表示词文档序列中第i个词在词表中的位置，V为语料库此表的大小；

对于主题模型，词文档序列的每个词汇v_i都有两个包含上下文信息的隐状态，分别为前向隐状态

和后向隐状态

所述前向隐状态

和所述后向隐状态

由v_i的上下文信息v_<i＝[v₁,…,v_i-1]与v_>i＝[v_i+1,…,v_D]以及引入预训练的词向量作为先验知识得到，即

包含v_i的完整上下文信息；

其中，g(.)为非线性激活函数，

与

为偏置向量，H为隐层大小，即主题数量，W为参数矩阵，E为预训练的词向量矩阵，γ为权值系数，

与

分别代表矩阵W，E中的v_j列，矩阵W是一个可学习的参数矩阵，其代表主题模型的主题词分布，每一行W_l,:编码了第l个潜在主题的主题信息，每一列

则为词v_i的向量表示；

其次，主题模型将词文档序列中所有词的联合分布p(v)分解为每个词v_i的条件分布的乘积，即

并据此对所述词文档序列建模，其中每个词的前后向自回归条件p(v_i)分别由前向隐状态

和后向隐状态

通过神经网络计算得到：

其中，W∈{1,…,V}，

分别为后向、前向偏置；

最后通过最大化对数似然函数logp(v)优化参数，得到主题模型。

作为一种较佳的实施例，所述获取新闻数据集合D的关键词包括：基于依存句法分析技术来获取关键词，抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系，以此作为新闻数据集合D的关键词，用于后续的事件聚类。

作为一种较佳的实施例，所述事件聚类步骤具体包括：

步骤1)以第一篇文档为种子，建立一个主题；

步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算，采用余弦距离度量方法，找出与文档X具有最大相似度的已有主题；若相似度值大于阈值θ，则把文档X加入到有最大相似度的主题中，跳转至步骤4)；

步骤3)若相似度值小于阈值θ，则文档X不属于任一已有主题，需创建新的主题类别，同时将当前文本归属到新创建的主题类别中；

步骤4)聚类结束，等待下一篇文档进入；经singlePass处理后，每个主题获得多个事件集合

其中e_i＝<d,w>为时间集合，d为所述时间集合e_i中所有新闻，w为新闻对应的关键词集合。

作为一种较佳的实施例，所述分支确定包括：对于每个主题下获得的所有事件

首先获取各个事件的高频关键词，对于各个事件的高频词来说，比较各个事件之间高频词之间的Jaccard相似系数，选择频率出现最高的十个作为关键词来进行比较，若Jaccard相似系数小于阈值δ，则认定两者不属于同一分支，否则认定两者属于同一分支。

本发明还提出一种融入深度语义关系分类的事件脉络生成系统，包括：

数据预处理模块，具体执行：对新闻数据集合D＝[d₁,d₂,…d_|D|]进行分词，合并后生成词文档序列v＝[v₁,v₂,…v_D]；

主题聚类模块，具体执行：训练主题模型，利用训练好的主题模型来完成主题的聚类，对于新闻数据集合D＝[d₁,d₂,…d_|D|]，经过主题模型后，得到每篇新闻数据对于各个主题的概率p_i，最终根据所述概率p_i，将新闻数据集合D划分为多个类别，得到主题聚类结果T＝{T₁,T₂,…T_|T|}，其中T_i为新闻数据的集合；

事件聚类模块，具体执行：获取新闻数据集合D的关键词，对每个主题聚类结果

w_i为新闻数据的第i个关键词，

脉络生成模块，具体执行：对于每个主题下获得的所有事件

作为一种较佳的实施例，所述训练主题模型具体包括：

和后向隐状态

所述前向隐状态

和所述后向隐状态

包含v_i的完整上下文信息；

其中，g(.)为非线性激活函数，

与

与

则为词v_i的向量表示；

和后向隐状态

通过神经网络计算得到：

其中，W∈{1,…,V}，

分别为后向、前向偏置；

作为一种较佳的实施例，所述事件聚类模块具体执行：

步骤1)以第一篇文档为种子，建立一个主题；

本发明在运用深度学习方法的同时，在事件检测过程中，充分运用到深度语义特征，同时选用双层聚类算法，让事件检测更加地准确，另外，由于综合考虑了事件的演变关系，提高了事件脉络的连贯性以及可读性，相比现有技术，本案优点如下：优点1，选用主题模型来进行主题的检测，该主题模型有效获取文本的深层语义特征，充分考虑了上下文信息，同时选用无监督模型，在减少人工标注的前提下还能准确的实现主题的检测；优点2，基于依存句法分析来确定关键词，解决传统关键词大多倾向名词或实体词的缺陷，同时在聚类过程中，将簇心设置为最新的文档，充分考虑事件发展的特性，提高了事件检测的准确性；优点3，在事件脉络过程中，考虑了事件关键词会随着事件重心的变化，基于关键词变化来确定分支，提高了事件脉络的可读性。

附图说明

图1是本发明的一种融入深度语义关系分类的事件脉络生成方法的拓扑原理图；

图2是本发明的主题模型的优选实施例的结构原理图；

图3是本发明的事件脉络形式的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：如图1所示，本发明提出一种融入深度语义关系分类的事件脉络生成方法，包括如下步骤：

数据预处理步骤，具体包括：对新闻数据集合D＝[d₁,d₂,…d_|D|]进行分词，合并后生成词文档序列v＝[v₁,v₂,…v_D]；一般选用jieba分词，另外，为了更好理解全文，分词后，考虑词之间的共现程度，将共现程度大于80％的进行合并；

w_i为新闻数据的第i个关键词，

脉络生成步骤，具体包括：对于每个主题下获得的所有事件

作为一种较佳的实施例，所述训练主题模型具体包括：

该主题模型为一种无监督的生成式主题模型，主题模型的结构如图2所示，该模型从文档中抽取其潜在特征，并据此重新生成文本，以生成文本的对数似然函数为最终的优化目标。

和后向隐状态

所述前向隐状态

和所述后向隐状态

包含v_i的完整上下文信息；

其中，g(.)为非线性激活函数，

与

与

则为词v_i的向量表示；

和后向隐状态

通过神经网络计算得到：

其中，W∈{1,…,V}，

分别为后向、前向偏置；

作为一种较佳的实施例，所述获取新闻数据集合D的关键词包括：由于传统的关键词更多倾向提取更多的名词或者实体词，但是对于一篇新闻来说，仅仅根据这些词是无法准确识别事件这种细粒度的划分，基于依存句法分析技术来获取关键词，抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系，以此作为新闻数据集合D的关键词，用于后续的事件聚类。

作为一种较佳的实施例，对所有的新闻文本表述，最终选用singlePass单程文本聚类算法来实现事件的聚类，其中将簇心设置为最新的文档，研究发现，这与事件发展较为吻合，与最新新闻比较能更准确实现事件划分，所述事件聚类步骤具体包括：

步骤1)以第一篇文档为种子，建立一个主题；

作为一种较佳的实施例，所述分支确定包括：考虑到在事件追踪过程中存在漂移现象，事件重心会发生变化，事件关键词也随之变化，例如对于西安奔驰维权事件来说，“金融”以及“服务费”在2019年4月14日的新闻中频繁出现，而在之前的事件新闻中从未出现。对于每个主题下获得的所有事件

w_i为新闻数据的第i个关键词，

脉络生成模块，具体执行：对于每个主题下获得的所有事件

作为一种较佳的实施例，所述训练主题模型具体包括：

和后向隐状态

所述前向隐状态

和所述后向隐状态

包含v_i的完整上下文信息；

其中，g(.)为非线性激活函数，

与

与

则为词v_i的向量表示；

和后向隐状态

通过神经网络计算得到：

其中，W∈{1,…,V}，

分别为后向、前向偏置；

作为一种较佳的实施例，所述事件聚类模块具体执行：

步骤1)以第一篇文档为种子，建立一个主题；

需要说明的是，本发明以新闻数据为基础，通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程，构建了准确的事件脉络。本案相比现有技术，欲保护关键点如下：关键点1，在主题聚类的过程中，选用了无监督的主题模型，该主题模型有效获取文本的深层语义特征，同时充分考虑了上下文信息；关键点2，在事件聚类的过程中，基于依存句法分析来提取事件的关键词代表，选用bert模型来进行向量化，并在聚类过程中，充分考虑事件发展的特性，将簇心设置为最新的文档，极大提高了事件检测的准确性；关键点3，在脉络生成过程中，除了考虑时间特性外，还考虑了事件的演变关系，基于高频关键词的变化来确定分支，最终形成事件脉络。

术语的含义：Token是服务端生成的一串字符串，以作客户端进行请求的一个令牌，当第一次登录后，服务器生成一个Token便将此Token返回给客户端，以后客户端只需带上这个Token前来请求数据即可，无需再次带上用户名和密码。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。