CN114265932A - 一种融入深度语义关系分类的事件脉络生成方法及系统 - Google Patents

一种融入深度语义关系分类的事件脉络生成方法及系统 Download PDF

Info

Publication number
CN114265932A
CN114265932A CN202111530106.9A CN202111530106A CN114265932A CN 114265932 A CN114265932 A CN 114265932A CN 202111530106 A CN202111530106 A CN 202111530106A CN 114265932 A CN114265932 A CN 114265932A
Authority
CN
China
Prior art keywords
event
topic
word
branch
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111530106.9A
Other languages
English (en)
Inventor
周小敏
应鸿晖
刁则鸣
聂芹芹
石易
王玉杰
张震
吴飞
卓采标
方四安
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Iflytek Information Technology Co Ltd
Original Assignee
Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Branch Center Of National Computer Network And Information Security Management Center, Iflytek Information Technology Co Ltd filed Critical Guangzhou Branch Center Of National Computer Network And Information Security Management Center
Priority to CN202111530106.9A priority Critical patent/CN114265932A/zh
Publication of CN114265932A publication Critical patent/CN114265932A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种融入深度语义关系分类的事件脉络生成方法及系统,所述方法包括如下步骤:对新闻数据集合进行分词,合并后生成词文档序列;训练主题模型,利用训练好的主题模型来完成主题的聚类,得到主题聚类结果;将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;对于每个主题下获得的所有事件进行分支确定,得到每个主题对应的分支集合,将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。本发明通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程。

Description

一种融入深度语义关系分类的事件脉络生成方法及系统
技术领域
本发明涉及一种融入深度语义关系分类的事件脉络生成方法及系统,属于语言处理技术领域。
背景技术
社交网络已被广泛用于发布新闻和报道事件。社交网络中信息的实时性和快速传播的能力使其成为获取信息的重要媒介,短文本的表述方式也能够有效地传递关键信息。社交网络的这些特性颠覆了传统媒体在信息传播上的统治力,这使其为监控事件及其演化提供了宝贵数据。然而,社交网络中文本的快速积累以及口语化的表达方式使得监控事件及事件间的演化具有极大挑战。从社交网络文本中对具有同一主题的事件及其演化进行提取能够极大地帮助我们在全景上对某一事件进行了解。例如:我们期望获得关于平昌冬奥会所有项目(即事件)的信息和这些项目的进程(即事件演化)。这需要我们首先检测事件,而后对这些事件进行聚类从而获得具有同一主题的事件(即故事),并最终以一种用户友好的方式(故事脉络)呈现出来。另外,深度学习和机器学习技术近几年快速发展,但在事件脉络的生成任务中仍然存在一些问题:1)事件由文本集合表示且有特定主题,如何从文本集合提取与事件对应的强相关的文本集合是一个关键问题;2)在生成事件脉络结构的过程中,如何从全局的角度来进行事件脉络的构建,提高脉络结构的连贯性及整体性也是一个亟待解决的问题。
事件脉络生成方法可分为两个部分:1)事件检测,2)脉络生成。事件检测是在海量的新闻数据集合中,将描述相同事件的新闻划分为一组,其中同一事件一般指的是多篇新闻描述所涉及的时间、地点、实体以及伴随结果相同;脉络生成则是以结构化的方式跟踪和揭示事件是如何随着时间发展的。事件脉络展示的是一个主题的发展过程,即一个主要事件以及其发展后续事件的集合。
现有的事件检测方法主要包括两类:基于文档的检测方法与基于关键词的检测方法。基于文档的检测方法主要是以新闻内容特征为基础,一般是基于相似度来度量事件之间的联系。如:Wu等人利用TF-IDF提取的文档特征向量计算余弦相似度,根据相似度来划分事件,而Zhou等人提出基于词频-逆事件频率(TF×IEF)和时间距离成本因子的混合模型,用TF×IEF把事件建模为向量,然后根据余弦相似度衡量事件内容的相似性,从而完成事件的检测。另外,Ozdikis等在时间窗口内对数据进行在线处理,在计算新时间窗口内的推文和已存在的活跃簇之间的相似度时,利用当前时间窗口以及前后各一个时间窗口内的上下文计算词汇之间的共现向量,然后利用该向量计算词汇之间的相似度并和TF-IDF值相乘生成最终的向量表示,这是对TF-IDF向量表示的一个扩展,能够很好地解决随时间的推移而发生的概念漂移问题,最后利用一个特定的词汇在相关事件内的词频随时间变化的模式分析该事件的强度演变过程。
基于关键词的事件检测方法主要是考虑到在事件出现时,某些特征词的频率会急剧上升,通过分析这些特征词来进行事件的识别与发现。如:Yang基于关键词的共现特征来构造关键词共现图,并选用社区检测算法对该关键词共现图进行划分,利用提取出的主题特征词来实现主题事件的划分。还有的,基于关键词来进行新闻表示,采用聚类算法来进行主题或事件检测。常见的聚类方法有基于密度的聚类、基于划分的聚类、基于层次的聚类以及基于增量的聚类。
目前已知的脉络生成方法中,事件脉络的表示形式主要有以下三个结构:时间轴结构,平面结构和图结构。在这三种结构中,时间轴结构通过事件的时间演化顺序直接连接事件,结构较为简单,该方法是将获取的事件直接根据事件的时间先后顺序生成事件脉络;平面结构为一个主事件向外发散,该方法主要是确定一个核心事件,其余事件均认为是该事件的发展后续;图结构分析了不同故事分支中事件之间的关联,较为复杂,该方法中,基于获取的事件,构建一个有向图或无向图,并以最小生成树或最大生成树作为最终的事件脉络结构。
发明内容
现有技术的缺点在于如下两点。(1)现有的事件检测方法存在很多的不足:(a)在现有的基于关键词的事件检测方法中,关键词的效果在很大程度上决定了事件检测的准确性,但是目前的关键词方法,大多选用textrank或TF-IDF等方法获得,这些方法大多获取的关键词更倾向于一些实体词等,并不能完整体现事件的含义;(b)聚类技术中,在基于TF-IDF向量、word2vec词向量的事件检测方法都是针对文本的浅层语义特征,词之间各自独立,无法反映序列信息,词向量相似度求解过程中,同义问题难以区分,无法获取精细的准确事件信息,从而导致事件检测不够准确,不能准确地描述事件发展过程;(c)另外,在海量的新闻数据中,大多使用有监督方法,这种情况下造成很大的人工压力,同时这种发展性的事件也不能保证质量的好坏。(2)现有事件脉络生成方法缺乏对事件之间深层演变关系的考虑,只是简单地根据时间顺序,或根据当前节点与前序所有节点的最大相似度来确定当前节点的脉络分支,无法应对事件的后续发展中出现与原始事件极度偏离的主题偏移情况,从而难以准确展现演变关系。
本发明的目的在于,克服现有技术存在的技术缺点,提出一种融入深度语义关系分类的事件脉络生成方法及系统,解决如下技术需求:(1)在主题事件划分阶段,基于主题模型来完成主题事件划分,神经主题模型能有效获取文本的深层语义特征,同时采用无监督的形式,在不降低准确率的同时减少了标注压力;(2)在事件检测阶段,选用依存句法分析来获取关键词,基于深度语义关系能更加准确的描述新闻描述的核心内容;(3)在脉络生成阶段,根据关键词的变化来确定分支,生成脉络,充分考虑事件的发展关系。
本发明具体采用如下技术方案:一种融入深度语义关系分类的事件脉络生成方法,包括如下步骤:
数据预处理步骤,具体包括:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];
主题聚类步骤,具体包括:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类步骤,具体包括:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure BDA0003404617090000041
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure BDA0003404617090000042
wi为新闻数据的第i个关键词,
脉络生成步骤,具体包括:对于每个主题下获得的所有事件
Figure BDA0003404617090000043
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
作为一种较佳的实施例,所述训练主题模型具体包括:
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure BDA0003404617090000051
和后向隐状态
Figure BDA0003404617090000052
所述前向隐状态
Figure BDA0003404617090000053
和所述后向隐状态
Figure BDA0003404617090000054
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure BDA0003404617090000055
包含vi的完整上下文信息;
Figure BDA0003404617090000056
Figure BDA0003404617090000057
其中,g(.)为非线性激活函数,
Figure BDA0003404617090000058
Figure BDA0003404617090000059
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure BDA00034046170900000510
Figure BDA00034046170900000511
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure BDA00034046170900000512
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure BDA00034046170900000513
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure BDA00034046170900000514
和后向隐状态
Figure BDA00034046170900000515
通过神经网络计算得到:
Figure BDA00034046170900000516
Figure BDA00034046170900000517
其中,W∈{1,…,V},
Figure BDA00034046170900000518
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
作为一种较佳的实施例,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
作为一种较佳的实施例,所述事件聚类步骤具体包括:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure BDA0003404617090000061
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
作为一种较佳的实施例,所述分支确定包括:对于每个主题下获得的所有事件
Figure BDA0003404617090000062
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
本发明还提出一种融入深度语义关系分类的事件脉络生成系统,包括:
数据预处理模块,具体执行:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];
主题聚类模块,具体执行:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类模块,具体执行:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure BDA0003404617090000063
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure BDA0003404617090000071
wi为新闻数据的第i个关键词,
脉络生成模块,具体执行:对于每个主题下获得的所有事件
Figure BDA0003404617090000072
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
作为一种较佳的实施例,所述训练主题模型具体包括:
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure BDA0003404617090000073
和后向隐状态
Figure BDA0003404617090000074
所述前向隐状态
Figure BDA0003404617090000075
和所述后向隐状态
Figure BDA0003404617090000076
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure BDA0003404617090000077
包含vi的完整上下文信息;
Figure BDA0003404617090000078
Figure BDA0003404617090000079
其中,g(.)为非线性激活函数,
Figure BDA00034046170900000710
Figure BDA00034046170900000711
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure BDA00034046170900000712
Figure BDA00034046170900000713
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure BDA00034046170900000714
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure BDA0003404617090000081
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure BDA0003404617090000082
和后向隐状态
Figure BDA0003404617090000083
通过神经网络计算得到:
Figure BDA0003404617090000084
Figure BDA0003404617090000085
其中,W∈{1,…,V},
Figure BDA0003404617090000086
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
作为一种较佳的实施例,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
作为一种较佳的实施例,所述事件聚类模块具体执行:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure BDA0003404617090000087
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
作为一种较佳的实施例,所述分支确定包括:对于每个主题下获得的所有事件
Figure BDA0003404617090000088
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
本发明在运用深度学习方法的同时,在事件检测过程中,充分运用到深度语义特征,同时选用双层聚类算法,让事件检测更加地准确,另外,由于综合考虑了事件的演变关系,提高了事件脉络的连贯性以及可读性,相比现有技术,本案优点如下:优点1,选用主题模型来进行主题的检测,该主题模型有效获取文本的深层语义特征,充分考虑了上下文信息,同时选用无监督模型,在减少人工标注的前提下还能准确的实现主题的检测;优点2,基于依存句法分析来确定关键词,解决传统关键词大多倾向名词或实体词的缺陷,同时在聚类过程中,将簇心设置为最新的文档,充分考虑事件发展的特性,提高了事件检测的准确性;优点3,在事件脉络过程中,考虑了事件关键词会随着事件重心的变化,基于关键词变化来确定分支,提高了事件脉络的可读性。
附图说明
图1是本发明的一种融入深度语义关系分类的事件脉络生成方法的拓扑原理图;
图2是本发明的主题模型的优选实施例的结构原理图;
图3是本发明的事件脉络形式的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1:如图1所示,本发明提出一种融入深度语义关系分类的事件脉络生成方法,包括如下步骤:
数据预处理步骤,具体包括:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];一般选用jieba分词,另外,为了更好理解全文,分词后,考虑词之间的共现程度,将共现程度大于80%的进行合并;
主题聚类步骤,具体包括:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类步骤,具体包括:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure BDA0003404617090000101
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure BDA0003404617090000102
wi为新闻数据的第i个关键词,
脉络生成步骤,具体包括:对于每个主题下获得的所有事件
Figure BDA0003404617090000103
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
作为一种较佳的实施例,所述训练主题模型具体包括:
该主题模型为一种无监督的生成式主题模型,主题模型的结构如图2所示,该模型从文档中抽取其潜在特征,并据此重新生成文本,以生成文本的对数似然函数为最终的优化目标。
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure BDA0003404617090000104
和后向隐状态
Figure BDA0003404617090000105
所述前向隐状态
Figure BDA0003404617090000106
和所述后向隐状态
Figure BDA0003404617090000107
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure BDA0003404617090000108
包含vi的完整上下文信息;
Figure BDA0003404617090000111
Figure BDA0003404617090000112
其中,g(.)为非线性激活函数,
Figure BDA0003404617090000113
Figure BDA0003404617090000114
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure BDA0003404617090000115
Figure BDA0003404617090000116
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure BDA0003404617090000117
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure BDA0003404617090000118
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure BDA0003404617090000119
和后向隐状态
Figure BDA00034046170900001110
通过神经网络计算得到:
Figure BDA00034046170900001111
Figure BDA00034046170900001112
其中,W∈{1,…,V},
Figure BDA00034046170900001113
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
作为一种较佳的实施例,所述获取新闻数据集合D的关键词包括:由于传统的关键词更多倾向提取更多的名词或者实体词,但是对于一篇新闻来说,仅仅根据这些词是无法准确识别事件这种细粒度的划分,基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
作为一种较佳的实施例,对所有的新闻文本表述,最终选用singlePass单程文本聚类算法来实现事件的聚类,其中将簇心设置为最新的文档,研究发现,这与事件发展较为吻合,与最新新闻比较能更准确实现事件划分,所述事件聚类步骤具体包括:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure BDA0003404617090000121
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
作为一种较佳的实施例,所述分支确定包括:考虑到在事件追踪过程中存在漂移现象,事件重心会发生变化,事件关键词也随之变化,例如对于西安奔驰维权事件来说,“金融”以及“服务费”在2019年4月14日的新闻中频繁出现,而在之前的事件新闻中从未出现。对于每个主题下获得的所有事件
Figure BDA0003404617090000122
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
本发明还提出一种融入深度语义关系分类的事件脉络生成系统,包括:
数据预处理模块,具体执行:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];
主题聚类模块,具体执行:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类模块,具体执行:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure BDA0003404617090000131
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure BDA0003404617090000132
wi为新闻数据的第i个关键词,
脉络生成模块,具体执行:对于每个主题下获得的所有事件
Figure BDA0003404617090000133
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
作为一种较佳的实施例,所述训练主题模型具体包括:
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure BDA0003404617090000134
和后向隐状态
Figure BDA0003404617090000135
所述前向隐状态
Figure BDA0003404617090000136
和所述后向隐状态
Figure BDA0003404617090000137
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure BDA0003404617090000138
包含vi的完整上下文信息;
Figure BDA0003404617090000139
Figure BDA00034046170900001310
其中,g(.)为非线性激活函数,
Figure BDA00034046170900001311
Figure BDA00034046170900001312
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure BDA00034046170900001313
Figure BDA00034046170900001314
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure BDA0003404617090000141
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure BDA0003404617090000142
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure BDA0003404617090000143
和后向隐状态
Figure BDA0003404617090000144
通过神经网络计算得到:
Figure BDA0003404617090000145
Figure BDA0003404617090000146
其中,W∈{1,…,V},
Figure BDA0003404617090000147
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
作为一种较佳的实施例,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
作为一种较佳的实施例,所述事件聚类模块具体执行:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure BDA0003404617090000148
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
作为一种较佳的实施例,所述分支确定包括:对于每个主题下获得的所有事件
Figure BDA0003404617090000151
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
需要说明的是,本发明以新闻数据为基础,通过结合基于主题模型的文本聚类方法和基于深度语义的事件聚类方法完成事件脉络的生成过程,构建了准确的事件脉络。本案相比现有技术,欲保护关键点如下:关键点1,在主题聚类的过程中,选用了无监督的主题模型,该主题模型有效获取文本的深层语义特征,同时充分考虑了上下文信息;关键点2,在事件聚类的过程中,基于依存句法分析来提取事件的关键词代表,选用bert模型来进行向量化,并在聚类过程中,充分考虑事件发展的特性,将簇心设置为最新的文档,极大提高了事件检测的准确性;关键点3,在脉络生成过程中,除了考虑时间特性外,还考虑了事件的演变关系,基于高频关键词的变化来确定分支,最终形成事件脉络。
术语的含义:Token是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种融入深度语义关系分类的事件脉络生成方法,其特征在于,包括如下步骤:
数据预处理步骤,具体包括:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];
主题聚类步骤,具体包括:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类步骤,具体包括:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure FDA0003404617080000011
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure FDA0003404617080000012
wi为新闻数据的第i个关键词,
脉络生成步骤,具体包括:对于每个主题下获得的所有事件
Figure FDA0003404617080000013
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
2.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述训练主题模型具体包括:
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure FDA0003404617080000014
和后向隐状态
Figure FDA0003404617080000015
所述前向隐状态
Figure FDA0003404617080000016
和所述后向隐状态
Figure FDA0003404617080000017
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure FDA0003404617080000021
包含vi的完整上下文信息;
Figure FDA0003404617080000022
Figure FDA0003404617080000023
其中,g(.)为非线性激活函数,
Figure FDA0003404617080000024
Figure FDA0003404617080000025
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure FDA0003404617080000026
Figure FDA0003404617080000027
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure FDA0003404617080000028
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure FDA0003404617080000029
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure FDA00034046170800000215
和后向隐状态
Figure FDA00034046170800000211
通过神经网络计算得到:
Figure FDA00034046170800000212
Figure FDA00034046170800000213
其中,W∈{1,…,V},
Figure FDA00034046170800000214
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
3.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
4.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述事件聚类步骤具体包括:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure FDA0003404617080000031
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
5.根据权利要求1所述的一种融入深度语义关系分类的事件脉络生成方法,其特征在于,所述分支确定包括:对于每个主题下获得的所有事件
Figure FDA0003404617080000032
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
6.一种融入深度语义关系分类的事件脉络生成系统,其特征在于,包括:
数据预处理模块,具体执行:对新闻数据集合D=[d1,d2,…d|D|]进行分词,合并后生成词文档序列v=[v1,v2,…vD];
主题聚类模块,具体执行:训练主题模型,利用训练好的主题模型来完成主题的聚类,对于新闻数据集合D=[d1,d2,…d|D|],经过主题模型后,得到每篇新闻数据对于各个主题的概率pi,最终根据所述概率pi,将新闻数据集合D划分为多个类别,得到主题聚类结果T={T1,T2,…T|T|},其中Ti为新闻数据的集合;
事件聚类模块,具体执行:获取新闻数据集合D的关键词,对每个主题聚类结果
Figure FDA0003404617080000033
中的新闻ti,采用bert模型对每篇新闻数据进行向量化,即将所有的关键词拼接后输入到bert模型中,最终的新闻文本向量表示为所有token的向量的平均;其中,
Figure FDA00034046170800000416
wi为新闻数据的第i个关键词,
脉络生成模块,具体执行:对于每个主题下获得的所有事件
Figure FDA0003404617080000042
进行分支确定,得到每个主题对应的分支集合B={branch1,branch2,…branch|B|},其中branchi为第i个分支所对应的事件集合;将每个分支中的事件按照时间先后顺序连接,并将分支也按照时间先后顺序连接,即按照分支中最早事件的时间先后顺序连接,最终获得事件脉络。
7.根据权利要求6所述的一种融入深度语义关系分类的事件脉络生成系统,其特征在于,所述训练主题模型具体包括:
对于词文档序列v=[v1,v2,…vD],其中D为该词文档序列所包含的词数,vi∈{1,…,V}表示词文档序列中第i个词在词表中的位置,V为语料库此表的大小;
对于主题模型,词文档序列的每个词汇vi都有两个包含上下文信息的隐状态,分别为前向隐状态
Figure FDA0003404617080000043
和后向隐状态
Figure FDA0003404617080000044
所述前向隐状态
Figure FDA0003404617080000045
和所述后向隐状态
Figure FDA0003404617080000046
由vi的上下文信息v<i=[v1,…,vi-1]与v>i=[vi+1,…,vD]以及引入预训练的词向量作为先验知识得到,即
Figure FDA0003404617080000047
包含vi的完整上下文信息;
Figure FDA0003404617080000048
Figure FDA0003404617080000049
其中,g(.)为非线性激活函数,
Figure FDA00034046170800000410
Figure FDA00034046170800000411
为偏置向量,H为隐层大小,即主题数量,W为参数矩阵,E为预训练的词向量矩阵,γ为权值系数,
Figure FDA00034046170800000412
Figure FDA00034046170800000413
分别代表矩阵W,E中的vj列,矩阵W是一个可学习的参数矩阵,其代表主题模型的主题词分布,每一行Wl,:编码了第l个潜在主题的主题信息,每一列
Figure FDA00034046170800000414
则为词vi的向量表示;
其次,主题模型将词文档序列中所有词的联合分布p(v)分解为每个词vi的条件分布的乘积,即
Figure FDA00034046170800000415
并据此对所述词文档序列建模,其中每个词的前后向自回归条件p(vi)分别由前向隐状态
Figure FDA0003404617080000051
和后向隐状态
Figure FDA0003404617080000052
通过神经网络计算得到:
Figure FDA0003404617080000053
Figure FDA0003404617080000054
其中,W∈{1,…,V},
Figure FDA0003404617080000055
分别为后向、前向偏置;
最后通过最大化对数似然函数logp(v)优化参数,得到主题模型。
8.根据权利要求6所述的一种融入深度语义关系分类的事件脉络生成系统,其特征在于,所述获取新闻数据集合D的关键词包括:基于依存句法分析技术来获取关键词,抽取新闻数据集中的主谓关系、动宾关系、间宾关系、定中关系,以此作为新闻数据集合D的关键词,用于后续的事件聚类。
9.根据权利要求6所述的一种融入深度语义关系分类的事件脉络生成系统,其特征在于,所述事件聚类模块具体执行:
步骤1)以第一篇文档为种子,建立一个主题;
步骤2)将下一篇文档X与已有的所有话题的簇心新闻均做相似度计算,采用余弦距离度量方法,找出与文档X具有最大相似度的已有主题;若相似度值大于阈值θ,则把文档X加入到有最大相似度的主题中,跳转至步骤4);
步骤3)若相似度值小于阈值θ,则文档X不属于任一已有主题,需创建新的主题类别,同时将当前文本归属到新创建的主题类别中;
步骤4)聚类结束,等待下一篇文档进入;经singlePass处理后,每个主题获得多个事件集合
Figure FDA0003404617080000056
其中ei=<d,w>为时间集合,d为所述时间集合ei中所有新闻,w为新闻对应的关键词集合。
10.根据权利要求6所述的一种融入深度语义关系分类的事件脉络生成系统,其特征在于,所述分支确定包括:对于每个主题下获得的所有事件
Figure FDA0003404617080000061
首先获取各个事件的高频关键词,对于各个事件的高频词来说,比较各个事件之间高频词之间的Jaccard相似系数,选择频率出现最高的十个作为关键词来进行比较,若Jaccard相似系数小于阈值δ,则认定两者不属于同一分支,否则认定两者属于同一分支。
CN202111530106.9A 2021-12-10 2021-12-10 一种融入深度语义关系分类的事件脉络生成方法及系统 Pending CN114265932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111530106.9A CN114265932A (zh) 2021-12-10 2021-12-10 一种融入深度语义关系分类的事件脉络生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111530106.9A CN114265932A (zh) 2021-12-10 2021-12-10 一种融入深度语义关系分类的事件脉络生成方法及系统

Publications (1)

Publication Number Publication Date
CN114265932A true CN114265932A (zh) 2022-04-01

Family

ID=80827100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111530106.9A Pending CN114265932A (zh) 2021-12-10 2021-12-10 一种融入深度语义关系分类的事件脉络生成方法及系统

Country Status (1)

Country Link
CN (1) CN114265932A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033668A (zh) * 2022-08-12 2022-09-09 清华大学 故事脉络构建方法、装置、电子设备和存储介质
CN115878761A (zh) * 2023-03-02 2023-03-31 湖南蚁坊软件股份有限公司 事件脉络生成方法、设备及介质
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN116361468A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种事件脉络生成方法、电子设备和存储介质
CN117077632A (zh) * 2023-10-18 2023-11-17 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033668A (zh) * 2022-08-12 2022-09-09 清华大学 故事脉络构建方法、装置、电子设备和存储介质
CN115878761A (zh) * 2023-03-02 2023-03-31 湖南蚁坊软件股份有限公司 事件脉络生成方法、设备及介质
CN116049413A (zh) * 2023-04-03 2023-05-02 北京中科闻歌科技股份有限公司 基于事件演化的用户观点和立场获取方法
CN116361468A (zh) * 2023-04-03 2023-06-30 北京中科闻歌科技股份有限公司 一种事件脉络生成方法、电子设备和存储介质
CN116361468B (zh) * 2023-04-03 2024-05-03 北京中科闻歌科技股份有限公司 一种事件脉络生成方法、电子设备和存储介质
CN117077632A (zh) * 2023-10-18 2023-11-17 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法
CN117077632B (zh) * 2023-10-18 2024-01-09 北京国科众安科技有限公司 一种用于资讯主题的自动生成方法

Similar Documents

Publication Publication Date Title
CN114265932A (zh) 一种融入深度语义关系分类的事件脉络生成方法及系统
Grishman Information extraction
CN111639252A (zh) 一种基于新闻-评论关联性分析的虚假新闻识别方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
Chatterjee et al. Intent mining from past conversations for conversational agent
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
WO2022042297A1 (zh) 文本聚类方法、装置、电子设备及存储介质
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
WO2024067276A1 (zh) 用于确定视频的标签的方法、装置、设备及介质
CN113434684B (zh) 自监督学习的谣言检测方法、系统、设备及存储介质
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN114548321A (zh) 基于对比学习的自监督舆情评论观点对象分类方法
CN113705237A (zh) 融合关系短语知识的关系抽取方法、装置和电子设备
CN114997288A (zh) 一种设计资源关联方法
Zhang et al. Event recognition based on deep learning in Chinese texts
CN112527981A (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN114579739B (zh) 文本数据流的话题检测与追踪方法
CN114065760B (zh) 基于预训练语言模型的法律文本类案检索方法及系统
CN115062174A (zh) 基于语义原型树的端到端图像字幕生成方法
CN114417809A (zh) 基于结合图结构信息和文本语义模型的实体对齐方法
CN116245139B (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
CN116992026A (zh) 一种文本聚类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination