CN115878761B - 事件脉络生成方法、设备及介质 - Google Patents

事件脉络生成方法、设备及介质 Download PDF

Info

Publication number
CN115878761B
CN115878761B CN202310189799.2A CN202310189799A CN115878761B CN 115878761 B CN115878761 B CN 115878761B CN 202310189799 A CN202310189799 A CN 202310189799A CN 115878761 B CN115878761 B CN 115878761B
Authority
CN
China
Prior art keywords
event
context
propagation
model
trigger word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310189799.2A
Other languages
English (en)
Other versions
CN115878761A (zh
Inventor
焦梦姝
姚士杰
罗佳
雷玉玲
杜蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Eefung Software Co ltd
Original Assignee
Hunan Eefung Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Eefung Software Co ltd filed Critical Hunan Eefung Software Co ltd
Priority to CN202310189799.2A priority Critical patent/CN115878761B/zh
Publication of CN115878761A publication Critical patent/CN115878761A/zh
Application granted granted Critical
Publication of CN115878761B publication Critical patent/CN115878761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种事件脉络生成方法、设备及介质,以提高事件脉络的准确性、可读性、简洁性、完整性。本方法包括:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合,基于主题相关数据集合计算事件传播力,获取传播节点,生成初始传播列表;初始传播列表经过时间抽取器,初步提取出符合事件脉络生成的传播事件,组成传播事件列表;传播事件列表基于bert预训练模型抽取事件知识,然后聚类,去除相似事件,生成传播脉络列表;传播脉络列表与主题相关数据集合进行相似性匹配,获取数据信息并计算传播脉络特征,基于传播脉络特征计算事件参与度,对传播脉络列表进行筛选入库,生成事件脉络知识库。

Description

事件脉络生成方法、设备及介质
技术领域
本发明涉及计算机技术领域,具体涉及一种事件脉络生成方法、计算机设备及计算机可读存储介质。
背景技术
当前时代,互联网技术发展迅速,新闻媒体也从报纸转向线上,每天互联网上各大平台发布着各地的大小新闻,用户想要了解某一事件的来龙去脉需要从每天的报道中把相关的新闻捞出来查阅一遍,然后自行梳理出事件的发展和变化情况。事件脉络知识库旨在替用户完成这项工作,降低用户了解事件的成本,将事件从发生到后续所有的发展和演变信息汇总起来,按照时间线的方式展现给用户,用户只需浏览少量文字即可从中获取事件的重要知识,使用户能在短时间内掌握一个事件的来龙去脉和关键信息。
目前,事件脉络的研究发展仍存在不足之处,如:事件脉络存在与主题相关度不高的事件、事件脉络中事件表述的完整性及通顺性问题等。
发明内容
鉴于以上所述,本发明提供一种事件脉络生成方法、计算机设备、计算机可读存储介质,以提高事件脉络的准确性、可读性、简洁性、完整性。
本发明的技术方案:
第一方面,本发明提供一种事件脉络生成方法,包括以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合;
S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;
S3步骤:初始传播列表经过时间抽取器,初步提取出符合事件脉络生成的传播事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取事件信息,并计算传播脉络特征;
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;
S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
进一步地,所述S3步骤中,时间抽取器针对文本中的时间相关数据进行识别提取,主要采取正则表达式进行匹配,对日期、时间进行识别并转换成标准时间格式。
进一步地,所述S4步骤中,bert预训练模型包括事件触发词模型、事件实体模型及事件属性模型,每个模型都以bert预训练模型为基础;
事件触发词模型将文本信息输入bert预训练模型,bert预训练模型输出结果与文本特征向量拼接,再输入二分类模型中,判断触发词的起始位置和结束位置,从而获取事件触发词;
所述事件实体模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词位置特征和触发词距离特征,将触发词位置特征、触发词距离特征、文本特征生成文本特征向量,文本信息输入bert预训练模型,bert预训练模型的输出传入条件归一化层,将条件归一化层的输出结果与文本特征向量拼接,输入实体二分类模型,得到事件实体的位置;
事件属性模型将事件触发词模型的输出与文本信息输入bert预训练模型中,然后接一个动态池化层,事件触发词模型中的触发词上下文特征与文本特征生成文本特征向量,将动态池化层的输出与文本特征向量拼接,输入全连接层,对事件属性进行分类;
最终对事件触发词模型、事件实体模型、事件属性模型的输出结果进行合并处理,得到包含事件触发词、事件实体及事件属性的事件知识。
进一步地,所述事件属性模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词上下文特征,忽略文本中触发词左右窗口大小为K以外的词,对其进行掩码处理,标注触发词左右窗口K以内的词,触发词上下文特征和文本特征生成文本特征向量,将事件触发词模型的输出与文本信息输入bert预训练模型中,bert预训练模型的输出传入动态池化层,将动态池化层的输出结果和文本特征向量拼接,输入属性二分类模型中,得到事件属性结果。
进一步地,所述S5步骤中,相似性匹配是用于传播脉络事件与主题相关数据集合的匹配,以找出与传播脉络事件相关的数据,便于后续事件分布值的计算,主要采用word2vec模型,将传播脉络事件进行分词处理,主题相关数据进行关键词抽取,使用word2vec模型对传播脉络事件和主题相关数据的词结果进行表征,获取表征向量,进行相似度计算。
进一步地,所述S2步骤中,事件传播力主要与媒体或博主的粉丝数、在当前事件中的转载量有关,同时会随着时间的变化而衰减,事件传播力计算公式如下:N为事件中新闻媒体或社交博主的总数,为i媒体或博主的初始事件传播力,默认为1,为转载A媒体或博主文章的i媒体或博主的总转载用户数,是衰减系数,与时间相关,引入一个时间衰减机制,即让事件传播力按一定周期保持衰减,引入一个λ系数,1>λ>0,每隔一段时间,进行λ的衰减,以模拟用户对事件关注度的变化过程,衰减系数为:Decay=exp(-λ×间隔的时间),其中λ为冷却系数,A媒体或博主的事件传播力S(A)则为所有转载A媒体或博主文章的媒体或博主的初始事件传播力与总转载用户数比值的总和乘上衰减系数。
进一步地,所述S6步骤中,事件分布值计算公式为:;事件分布值中包含事件方差、事件峰值斜率、事件密度,通过参数设置调整分布值的偏向,其中为事件方差的权重,为事件密度的权重,为事件峰值斜率的权重,w参数的取值范围为[0,1];事件分布值的输入为传播脉络事件的各时间点热度值,Var(x)是事件方差函数,衡量事件发展热度的波动程度;Density(x)是事件密度函数,统计x中热度值为0的点,与总时间点计算占比;Grad(x)是事件峰值斜率函数,获取热度峰值,将其与话题初始热度值计算差值,除以热度峰值与话题初始热度值的时间差,得到事件峰值斜率;Norm(x)为归一化函数;F(x)表示某事件热度值的分布值,数值范围为[-1,1],值越大表示越符合事件脉络分布。
进一步地,所述S7步骤中,事件参与度用于衡量事件可用于生成事件脉络的程度,事件参与度公式为:A为当前事件event的发文媒体或博主,S(A)是A的事件传播力;Hot(event)表示事件event的热度值; Tanh(x)为双曲正切函数,e为自然常数,Tanh函数使输入值x的结果映射到(-1,1)之间;E(event)表示某事件的参与度,数值范围为(-1,1),值越大表示该事件越有可能构成事件脉络。
第二方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第三方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的有益效果:
本发明引入事件传播力,计算传播节点,获取可信度更高的事件数据作为初始传播列表;采用时间抽取器获取具备构建事件脉络知识库的传播事件列表;然后采用bert预训练模型挖掘传播事件脉络知识,通过事件脉络知识特征聚类,去除类似事件;基于事件热度值、事件传播力、事件分布值等计算事件脉络参与度,提高事件脉络的准确性和相关性。
本发明针对目前存在的不足之处进行优化,在一定程度上提升了事件脉络的准确性,使事件脉络的事件表述更简洁、更通顺,进一步为用户节省时间和精力,使用户在事件掌握和动态追踪上花费更少的时间,使机器抽取的事件脉络发展和重要知识更贴合人工处理的效果,构建事件脉络知识库,确保用户可同时关注多个事件,每个事件的重要信息和发展脉络一目了然,无需过多的整理汇总。
本发明针对事件脉络的准确度提升,引入事件传播力,提出事件参与度公式,提升事件信息来源的可信度和可用性,对事件脉络的优劣衡量进行量化,参与度包含对事件热度、事件分布值、事件传播力的综合衡量,事件分布值由事件热度方差、事件热度峰值斜率、事件密度组合计算生成,从实际事件分布的角度考量事件脉络优劣。
本发明主要集中于事件脉络的脉络抽取优化,基于现有技术的基础上结合bert预训练模型,提升了脉络可读性、简洁性、准确性、完整性。
本发明的优选实施方案及其有益效果,将结合具体实施方式进一步详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但不应构成对本发明的限制。在附图中,
图1为本发明事件脉络生成方法的流程示意图;
图2本发明事件脉络生成方法的bert预训练模型框图;
图3采用本发明bert预训练模型进行知识抽取的示意图;
图4本发明bert预训练模型的事件触发词模型的处理流程示意图;
图5本发明bert预训练模型的事件实体模型的处理流程示意图;
图6本发明bert预训练模型的事件属性模型图的处理流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本申请实施例提供的事件脉络生成方法,可以应用于如终端、服务器等计算机设备中。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,便携式可穿戴设备可为头戴设备等;服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
请参阅图1,本发明提供一种事件脉络生成方法,包括以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合,基于主题相关数据集合计算文章相似id,用于后续计算,文章相似度采用文章标题或首句的hash值进行计算;S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;新闻媒体或社交网络博主的事件传播力是基于当前事件的全量数据采用pageRank算法的思想,以转载作为投票机制,加入时间衰减机制计算的,随着事件时间的延长,事件传播力会相应的变化,不同事件中同一媒体或博主的传播力不同,且实际网络数据中,传播力越大的媒体或博主发文内容越重要、可信度越高,因此将其纳入参与度公式中;S2步骤的主要作用是对主题相关数据集合进行精细化筛选,计算事件发展过程中,占据重要地位的数据,认定其为事件发展的传播节点,去除噪音数据。
S3步骤:初始传播列表中的数据经过时间抽取器,初步提取出符合事件脉络生成的事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5:步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取数据信息并计算传播脉络特征,如事件起止时间、事件热度值、事件分布值等
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;
S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
本发明引入事件传播力,计算传播节点,获取可信度更高的事件数据作为初始传播列表;采用时间抽取器获取具备构建事件脉络知识库的传播事件列表;然后采用bert预训练模型挖掘传播事件脉络知识,通过事件脉络知识特征聚类,去除类似事件;基于事件热度值、事件传播力、事件分布值等计算事件脉络参与度,提高事件脉络的准确性和相关性。
本发明针对目前存在的不足之处进行优化,在一定程度上提升了事件脉络的准确性,使事件脉络的事件表述更简洁、更通顺,进一步为用户节省时间和精力,使用户在事件掌握和动态追踪上花费更少的时间,使机器抽取的事件脉络发展和重要知识更贴合人工处理的效果,构建事件脉络知识库,确保用户可同时关注多个事件,每个事件的重要信息和发展脉络一目了然,无需过多的整理汇总。
本发明针对事件脉络的准确度提升,引入事件传播力,提出事件参与度公式,提升事件信息来源的可信度和可用性,对事件脉络的优劣衡量进行量化,参与度包含对事件热度、事件分布值、事件传播力的综合衡量,事件分布值由事件热度方差、事件热度峰值斜率、事件密度组合计算生成,从实际事件分布的角度考量事件脉络优劣。
本发明主要集中于事件脉络的脉络抽取优化,基于现有技术的基础上结合bert预训练模型,提升了脉络可读性、简洁性、准确性、完整性。
在S3步骤中,时间抽取器针对文本中的时间相关数据进行识别提取,主要采取正则表达式进行匹配,对日期、时间等进行识别并转换成标准时间格式。该时间抽取器支持各种格式的日期识别、基于发文时间对中文表示的时间数据抽取转换、区分过去和未来的时间转换等,请参阅图3,例如当前时间2022年11月22日,“周三,XX公司举行周会”的文本数据可识别出时间为“周三”,可转换为两个时间,若是过去态,则为2022年11月16日,若为未来态,则为2022年11月23日。若上述文本中的“周三”改为“上周三”,则会自动识别为2022年11月16日。
请参阅图2及图4,在S4步骤中,知识抽取模块的核心是bert预训练模型,主要由三个模型组成:事件触发词模型、事件实体模型、事件属性模型。每个模型都以bert预训练模型为基础,事件触发词模型将文本信息输入bert预训练模型,bert预训练模型输出结果与文本特征向量拼接,再输入二分类模型中,判断触发词的起始位置和结束位置,从而获取事件触发词。
请参阅图5,事件实体模型将文本信息输入bert预训练模型中,然后接一个条件归一化层,事件触发词模型中的触发词位置特征、触发词距离特征与文本特征生成文本特征向量,将条件归一化层的输出与文本特征向量拼接,输入二分类模型,得到事件实体的位置,事件实体包含事件主体、事件客体、时间、地域。
请参阅图6,事件属性模型将事件触发词模型的输出与文本信息输入bert预训练模型中,然后接一个动态池化层,事件触发词模型中的触发词上下文特征与文本特征生成文本特征向量,将动态池化层的输出与文本特征向量拼接,输入全连接层,对事件属性进行分类。事件属性主要包括时态和极性,时态包括现在、过去、未来、其他,极性包括肯定、否定、可能。
请参阅图2,最终对事件触发词模型、事件实体模型、事件属性模型的输出结果进行合并处理,得到包含事件触发词、事件实体、事件属性的事件知识。
请参阅图4,事件触发词模型需要训练集中所有的触发词生成触发词知识库,将触发词知识库作为模型的先验知识,将文本中匹配上触发词知识库的内容标注出来,映射到特征向量中,将带有先验知识的特征向量与bert预训练模型的输出拼接作为二分类模型的输入,通过二分类模型得到文本中触发词的预测位置信息,通过位置信息得到触发词。
请参阅图5,事件实体模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词位置特征和触发词距离特征,触发词位置特征如图5中输入的第一行数字,其中“开启”两个字的位置对应的数值为1,其他为0,则表示“开启”为事件触发词模型预测出来的触发词。触发词距离信息体现在图5中输入的第二行数字,“开启”两个字对应的位置为0,表示这两个词是触发词本身,“全”字是触发词左边的第二个字符,因此其对应位置的数值为2,以此类推,从触发词往两侧数值依次递增,表示当前词与触发词直接的距离。
文本信息输入bert预训练模型中,将bert预训练模型的输出接入一个条件归一化层,条件归一化层可以使文本融入触发词的语义信息,提升模型效率,再将触发词位置信息、触发词距离信息、文本特征生成的文本特征向量与条件归一化层输出拼接输入二分模型中,得到事件实体。
请参阅图6,事件属性模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词上下文特征,忽略文本中触发词左右窗口大小为K以外的词,对其进行掩码处理,掩码处理如图6的第一行数字所示,当前窗口大小为6,因此触发词“开启”两边六个字符的值设置为1,其他字符的值都为0,开始标志和结束标志为0,表示值为1会对模型训练产生作用,值为0的数据会被忽略。将事件触发词模型的输出与文本信息输入bert预训练模型中,bert预训练模型的输出传入动态池化层,将动态池化层的输出结果与触发词上下文特征、文本特征生成的文本特征向量拼接,输入属性二分类模型中,得到事件属性结果,对文本做动态窗口和掩码处理的目的是使识别的事件属性只与触发词相关,提升事件属性的准确性。
在S5步骤中,相似性匹配是用于传播脉络事件与主题相关数据集合的匹配,以找出与传播脉络事件相关的数据,便于后续事件分布值的计算。主要采用word2vec模型,将传播脉络事件进行分词处理,主题相关数据进行关键词抽取,使用word2vec模型对传播脉络事件和主题相关数据的词结果进行表征,获取表征向量,进行相似度计算。
在S2步骤中,传播力分为全局传播力和局部传播力,事件传播力为局部传播力,用于表述每个事件中新闻媒体或社交博主在当前事件中的活跃程度、传播能力、影响力。同一媒体或博主在不同事件中扮演的角色不同,因此针对每个事件实时动态的调整事件传播力,用于找出权威真实的传播节点,增强数据来源的可信度和可用性。
事件传播力主要与媒体或博主的粉丝数、在当前事件中的转载量有关,同时会随着时间的变化而衰减,事件传播力计算公式如下:上述公式是借鉴pagerank算法的思想生成的, N为事件中新闻媒体或社交博主的总数,为i媒体或博主的初始事件传播力,默认为1,为转载A媒体或博主文章的i媒体或博主的总转载用户数,是衰减系数,与时间相关,对于实时性很强的新闻来说,人们的兴趣点是会随着时间改变的,比如这段时间某新闻热点非常受人们关注,但随着时间的推移,热度会逐渐降低,直至不再关注。对于有时间脉络的事件来说,用户的事件传播力也类似,在某个事件中,某一时间段上,用户对这一事件的关注度和传播力可能很高,但几天后或者一个月后,用户可能不再关注这一事件,不再对这一事件进行传播或影响。为了解决用户在不同时间段对同一事件的传播力变化,引入一个时间衰减机制,即让事件传播力按一定周期保持衰减,引入一个λ系数,1>λ>0,每隔一段时间,进行λ的衰减,这样来模拟用户对事件关注度的变化过程。衰减系数为:Decay=exp(-λ×间隔的时间),其中λ为冷却系数。A媒体或博主的事件传播力S(A)则为所有转载A媒体或博主文章的媒体或博主的初始事件传播力与总转载用户数比值的总和乘上衰减系数。
所述S6步骤中,事件分布值计算公式为:
事件分布值中包含事件方差、事件峰值斜率、事件密度,通过参数设置调整分布值的偏向,其中为事件方差的权重,为事件密度的权重,为事件峰值斜率的权重,w参数的取值范围为[0,1];事件分布值的输入为传播脉络事件的各时间点热度值,Var(x)是事件方差函数,衡量事件发展热度的波动程度;Density(x)是事件密度函数,统计x中热度值为0的点,与总时间点计算占比;Grad(x)是事件峰值斜率函数,获取热度峰值,将其与话题初始热度值计算差值,除以热度峰值与话题初始热度值的时间差,得到事件峰值斜率;Norm(x)为归一化函数;F(x)表示某事件热度值的分布值,数值范围为[-1,1],值越大表示越符合事件脉络分布。
事件方差相关源码:
  def variance(seq: Seq[(Long, Long)]): Double = {
    val arv = seq.map(_._2).sum.asInstanceOf[Double] / seq.size
    seq.map(x => (x._2 - arv) * (x._2 - arv)).sum / seq.size
  }
事件密度相关源码:
  def density(seq: Seq[(Long, Long)]): Double = {
    if (seq.isEmpty)
      return 0
    val sorted = seq.map(_._1)
    seq.size.asInstanceOf[Double] / (sorted.max - sorted.min + 1)
  }
事件峰值斜率相关源码:
def slope(seq: Seq[(Long, Long)]): Double = {
    val max = seq.sortBy(_._2).max
    val start = seq.sortBy(_._1).min
    max._2.asInstanceOf[Double] / (max._1 - start._1)
  }
所述S7步骤中,事件参与度用于衡量事件可用于生成事件脉络的程度,事件参与度公式为:;
A为当前事件event的发文媒体或博主,S(A)是A的事件传播力;Hot(event)表示事件event的热度值;Tanh(x)为双曲正切函数,e为自然常数,e=2.718281828459045,Tanh函数使输入值x的结果映射到(-1,1)之间;E(event)表示某事件的参与度,数值范围为(-1,1),值越大表示该事件越有可能构成事件脉络。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的事件脉络生成方法的计算机设备。该计算机设备所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的计算机设备实施例中的具体限定可以参见上文中对于事件脉络生成方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种事件脉络生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合,基于主题相关数据集合计算文章相似id,用于后续计算,文章相似度采用文章标题或首句的hash值进行计算;
S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;新闻媒体或社交网络博主的事件传播力是基于当前事件的全量数据采用pageRank算法的思想,以转载作为投票机制,加入时间衰减机制计算的,随着事件时间的延长,事件传播力会相应的变化,不同事件中同一媒体或博主的传播力不同,且实际网络数据中,传播力越大的媒体或博主发文内容越重要、可信度越高,因此将其纳入参与度公式中;
S3步骤:初始传播列表中的数据经过时间抽取器,初步提取出符合事件脉络生成的事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5:步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取数据信息并计算传播脉络特征,如事件起止时间、事件热度值、事件分布值等
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;
S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合,基于主题相关数据集合计算文章相似id,用于后续计算,文章相似度采用文章标题或首句的hash值进行计算;
S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;新闻媒体或社交网络博主的事件传播力是基于当前事件的全量数据采用pageRank算法的思想,以转载作为投票机制,加入时间衰减机制计算的,随着事件时间的延长,事件传播力会相应的变化,不同事件中同一媒体或博主的传播力不同,且实际网络数据中,传播力越大的媒体或博主发文内容越重要、可信度越高,因此将其纳入参与度公式中;
S3步骤:初始传播列表中的数据经过时间抽取器,初步提取出符合事件脉络生成的事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5:步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取数据信息并计算传播脉络特征,如事件起止时间、事件热度值、事件分布值等
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合,基于主题相关数据集合计算文章相似id,用于后续计算,文章相似度采用文章标题或首句的hash值进行计算;
S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;新闻媒体或社交网络博主的事件传播力是基于当前事件的全量数据采用pageRank算法的思想,以转载作为投票机制,加入时间衰减机制计算的,随着事件时间的延长,事件传播力会相应的变化,不同事件中同一媒体或博主的传播力不同,且实际网络数据中,传播力越大的媒体或博主发文内容越重要、可信度越高,因此将其纳入参与度公式中;
S3步骤:初始传播列表中的数据经过时间抽取器,初步提取出符合事件脉络生成的事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5:步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取数据信息并计算传播脉络特征,如事件起止时间、事件热度值、事件分布值等
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;
S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (8)

1.一种事件脉络生成方法,其特征在于,包括以下步骤:
S1步骤:根据用户需求,制定主题关键词,采集主题相关数据生成主题相关数据集合;
S2步骤:计算事件传播力,获取传播节点,生成初始传播列表;
S3步骤:初始传播列表经过时间抽取器,初步提取出符合事件脉络生成的传播事件,组成传播事件列表;
S4步骤:传播事件列表通过bert预训练模型进行知识抽取,将事件知识作为特征进行聚类,去除类似事件,生成传播脉络列表;
S5步骤:传播脉络列表与主题相关数据集合进行相似性匹配,获取事件信息,并计算传播脉络特征;
S6步骤:事件起止时间内的传播脉络相关数据按发文时间分时统计事件热度,并计算事件分布值,事件分布值由事件方差、事件峰值斜率、事件密度组合计算生成;
事件分布值计算公式为:
;事件分布值中包含事件方差、事件峰值斜率、事件密度,通过参数设置调整分布值的偏向,其中为事件方差的权重,为事件密度的权重,为事件峰值斜率的权重,w参数的取值范围为[0,1];事件分布值的输入为传播脉络事件的各时间点热度值,Var(x)是事件方差函数,衡量事件发展热度的波动程度;Density(x)是事件密度函数,统计x中热度值为0的点,与总时间点计算占比;Grad(x)是事件峰值斜率函数,获取热度峰值,将其与话题初始热度值计算差值,除以热度峰值与话题初始热度值的时间差,得到事件峰值斜率;Norm(x)为归一化函数;F(x)表示某事件热度值的分布值,数值范围为[-1,1],值越大表示越符合事件脉络分布;
S7步骤:传播脉络事件根据事件时间进行分类,类别内根据事件热度值、事件传播力、事件分布值计算出当前传播脉络事件可组成事件脉络的参与度;
事件参与度用于衡量事件可用于生成事件脉络的程度,事件参与度公式为:
A为当前事件event的发文媒体或博主,S(A)是A的事件传播力;Hot(event)表示事件event的热度值;Tanh(x)为双曲正切函数,e为自然常数,Tanh函数使输入值x的结果映射到(-1,1)之间;E(event)表示某事件的参与度,数值范围为(-1,1),值越大表示该事件越有可能构成事件脉络;
S8步骤:根据参与度对传播脉络事件筛选并入库,完成事件脉络知识库构建,并推送给用户。
2.根据权利要求1所述的事件脉络生成方法,其特征在于,所述S3步骤中,时间抽取器针对文本中的时间相关数据进行识别提取,主要采取正则表达式进行匹配,对日期、时间进行识别并转换成标准时间格式。
3.根据权利要求1所述的事件脉络生成方法,其特征在于,所述S4步骤中,bert预训练模型包括事件触发词模型、事件实体模型及事件属性模型,每个模型都以bert预训练模型为基础;
事件触发词模型将文本信息输入bert预训练模型,bert预训练模型输出结果与文本特征向量拼接,再输入二分类模型中,判断触发词的起始位置和结束位置,从而获取事件触发词;
事件实体模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词位置特征和触发词距离特征,将触发词位置特征、触发词距离特征、文本特征生成文本特征向量,文本信息输入bert预训练模型,bert预训练模型的输出传入条件归一化层,将条件归一化层的输出结果与文本特征向量拼接,输入实体二分类模型,得到事件实体的位置;
事件属性模型将事件触发词模型的输出与文本信息输入bert预训练模型中,然后接一个动态池化层,事件触发词模型中的触发词上下文特征与文本特征生成文本特征向量,将动态池化层的输出与文本特征向量拼接,输入全连接层,对事件属性进行分类;
最终对事件触发词模型、事件实体模型及事件属性模型的输出结果进行合并处理,得到包含事件触发词、事件实体及事件属性的事件知识。
4.根据权利要求3所述的事件脉络生成方法,其特征在于,所述事件属性模型需要事件触发词模型的输出作为输入特征,事件触发词模型的输出转换成触发词上下文特征,忽略文本中触发词左右窗口大小为K以外的词,对其进行掩码处理,标注触发词左右窗口K以内的词,触发词上下文特征和文本特征生成文本特征向量,将事件触发词模型的输出与文本信息输入bert预训练模型中,bert预训练模型的输出传入动态池化层,将动态池化层的输出结果和文本特征向量拼接,输入属性二分类模型中,得到事件属性结果。
5.根据权利要求1所述的事件脉络生成方法,其特征在于,所述S5步骤中,相似性匹配是用于传播脉络事件与主题相关数据集合的匹配,以找出与传播脉络事件相关的数据,便于后续事件分布值的计算,主要采用word2vec模型,将传播脉络事件进行分词处理,主题相关数据进行关键词抽取,使用word2vec模型对传播脉络事件和主题相关数据的词结果进行表征,获取表征向量,进行相似度计算。
6.根据权利要求1所述的事件脉络生成方法,其特征在于,所述S2步骤中,事件传播力主要与媒体或博主的粉丝数、在当前事件中的转载量有关,同时会随着时间的变化而衰减,事件传播力计算公式如下:
N为事件中新闻媒体或社交博主的总数,为i媒体或博主的初始事件传播力,默认为1,为转载A媒体或博主文章的i媒体或博主的总转载用户数,是衰减系数,与时间相关,引入一个时间衰减机制,让事件传播力按一定周期保持衰减,引入一个λ系数,1>λ>0,每隔一段时间,进行λ的衰减,以模拟用户对事件关注度的变化过程,衰减系数为:Decay=exp(-λ×间隔的时间),其中λ为冷却系数;A媒体或博主的事件传播力S(A)则为所有转载A媒体或博主文章的媒体或博主的初始事件传播力与总转载用户数比值的总和乘上衰减系数。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202310189799.2A 2023-03-02 2023-03-02 事件脉络生成方法、设备及介质 Active CN115878761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310189799.2A CN115878761B (zh) 2023-03-02 2023-03-02 事件脉络生成方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310189799.2A CN115878761B (zh) 2023-03-02 2023-03-02 事件脉络生成方法、设备及介质

Publications (2)

Publication Number Publication Date
CN115878761A CN115878761A (zh) 2023-03-31
CN115878761B true CN115878761B (zh) 2023-05-09

Family

ID=85761796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310189799.2A Active CN115878761B (zh) 2023-03-02 2023-03-02 事件脉络生成方法、设备及介质

Country Status (1)

Country Link
CN (1) CN115878761B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361468B (zh) * 2023-04-03 2024-05-03 北京中科闻歌科技股份有限公司 一种事件脉络生成方法、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933129B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和系统
CN106407473B (zh) * 2016-10-27 2020-01-31 西南石油大学 一种基于事件相似性建模的获取事件脉络的方法及其系统
CN106776841B (zh) * 2016-11-28 2020-04-21 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN110188172B (zh) * 2019-05-31 2022-10-28 清华大学 基于文本的事件检测方法、装置、计算机设备及存储介质
CN114265932A (zh) * 2021-12-10 2022-04-01 国家计算机网络与信息安全管理中心广东分中心 一种融入深度语义关系分类的事件脉络生成方法及系统
CN115658905A (zh) * 2022-11-07 2023-01-31 中国电子科技集团公司第二十八研究所 一种跨篇章的事件多维画像生成方法

Also Published As

Publication number Publication date
CN115878761A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US9645999B1 (en) Adjustment of document relationship graphs
WO2020147428A1 (zh) 交互内容生成方法、装置、计算机设备及存储介质
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
Osmani et al. Enriched latent dirichlet allocation for sentiment analysis
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
US20180285448A1 (en) Producing personalized selection of applications for presentation on web-based interface
CN110275962B (zh) 用于输出信息的方法和装置
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115878761B (zh) 事件脉络生成方法、设备及介质
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
Yao et al. Version-aware rating prediction for mobile app recommendation
Che et al. Tensor factorization with sparse and graph regularization for fake news detection on social networks
Zhao et al. Discerning influence patterns with beta-poisson factorization in microblogging environments
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN107784112A (zh) 短文本数据增强方法、系统及检测认证服务平台
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
Fu et al. Attribute-Sentiment pair correlation model based on online user reviews
Subramani et al. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction
Luo et al. Research on civic hotline complaint text classification model based on word2vec
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant