CN113449101A

CN113449101A - 公共卫生安全事件检测及事件集合构建方法及系统

Info

Publication number: CN113449101A
Application number: CN202010226687.6A
Authority: CN
Inventors: 罗引; 郭建彬; 孔庆超; 王宇琪; 方省; 汪小东; 张西娜; 赵菲菲; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-09-28

Abstract

本发明实施例涉及一种公共卫生安全事件检测及事件集合构建方法及系统，方法包括：确定多个第一文本数据对应的多个主题信息，以及每个主题信息对应的至少一个第一文本数据；对每个主题信息对应的至少一个第一文本数据进行事件检测，确定每个主题信息对应的至少一个目标事件；将全部主题信息以及每个主题信息对应的至少一个目标事件作为事件集合；从互联网新闻流数据中获取与事件集合中主题信息相匹配的第二文本数据；基于第二文本数据与事件集合中目标事件的归属度对事件集合进行更新，基于静态文本数据构建的事件集合可以实现对动态文本数据的检测，进而提高互联网新闻流数据的检测效率，形成特定主题下相关舆情分析数据。

Description

公共卫生安全事件检测及事件集合构建方法及系统

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种公共卫生安全事件检测及事件集合构建方法及系统。

背景技术

新闻事件检测问题旨在从浩如烟海的互联网文本数据中检测出公众舆情事件，即根据当前新闻流数据检测其中蕴含的尚处于潜伏期的网络舆情事件。尤其对于突发性公共卫生安全事件，及时对该类事件对应的新闻事件进行检测分析，对网络舆情监控及疏导、热点事件预测、网络舆情专题分析、敏感事件封堵及预警，能够对整个突发性公共卫生安全事件的监测和防控具有指导意义。

然而，在现有相关工作中，大部分工作是围绕静态新闻数据展开的，上述方案难以处理实时新闻数据流等动态数据，不能实时地检测新生事件，导致事件检测的时效性较差。

发明内容

鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种公共卫生安全事件检测及事件集合构建方法及系统。

第一方面，本发明实施例提供一种公共卫生安全事件检测及事件集合构建方法，包括：

确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；

对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；

将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；

从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；

基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新。

在一个可能的实施方式中，所述从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据，包括：

根据所述事件集合中所述主题信息确定对应的关键词；

通过关键词检测从互联网新闻流数据中过滤出与所述主题信息相匹配的第二文本数据。

在一个可能的实施方式中，所述基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新，包括：

若所述归属度大于第一阈值，则将所述第二文本数据合并至对应的目标事件；

若所述归属度小于等于第一阈值，则基于所述第二文本数据在所述事件集合中创建新事件。

在一个可能的实施方式中，在所述基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新之前，所述方法还包括：

确定所述第二文本数据与所述事件集合中目标事件的文本相似度；

确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度；

确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度；

基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，所述确定所述第二文本数据与所述事件集合中目标事件的文本相似度，包括：

对所述第二文本数据进行分词处理，确定分词处理后的所述第二文本的第一TF-IDF向量；

确定所述目标事件中主事件的第二TF-IDF向量；

将所述第一TF-IDF向量和所述第二TF-IDF向量之间的余弦相似度作为所述第二文本数据与所述目标事件的文本相似度。

在一个可能的实施方式中，所述确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度，包括：

从所述第二文本数据确定对应的第一实体集合；

从所述目标事件中确定对应的第二实体集合；

将采用JACCARD相似度算法确定的所述第一实体集合与所述第二实体集合之间的相似度作为所述第二文本数据与所述目标事件的实体集合相似度。

在一个可能的实施方式中，所述从所述第二文本数据确定对应的第一实体集合，包括：

从所述第二文本数据中确定第一实体和第二实体，所述第一实体为非时间实体，所述第二实体为时间实体；

确定第二文本数据中第一实体与所述第二实体集合中对应实体的余弦相似度；

若所述第一实体与所述第二实体集合中对应实体的余弦相似度大于第三阈值，则将所述第一实体添加至所述第一实体集合；

若所述第二文本数据中的第二实体与所述第二实体集合中对应实体的差值小于第四阈值，则将所述第二实体添加至所述第一实体集合。

在一个可能的实施方式中，所述确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度，包括：

确定所述第二文本数据中第一实体集合中实体对应的第一语义角色分布向量；

确定所述目标事件的第二实体集合中与所述第一实体集合相交实体对应的第二语义角色分布向量；

采用JS距离度量所述第一语义角色分布向量和所述第二语义角色分布向量的相似度；

按照所述相交实体出现的频数对所述相似度进行加权平均计算，得到所述第二文本数据与所述目标事件的实体语义角色相似度。

在一个可能的实施方式中，所述基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度，包括：

将所述文本相似度、所述实体集合相似度和所述实体语义角色相似度的算数平均值作为所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，所述方法还包括：

若所述事件集合中目标事件未更新的时长超过第二阈值，则将目标事件移除所述事件集合；

若所述事件集合中目标事件存在更新，则重新计算更新后的所述目标事件中的主事件。

第二方面，本发明实施例提供一种公共卫生安全事件检测及事件集合构建系统，包括：

静态事件检测模块，用于确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；

动态事件检测模块，用于从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；

事件更新模块，用于基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新。

第三方面，本发明实施例提供一种计算机设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的公共卫生安全事件检测及事件集合构建程序，以实现上述第一方面中任一项所述的公共卫生安全事件检测及事件集合构建方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中任一项所述的公共卫生安全事件检测及事件集合构建方法。

本发明实施例提供的公共卫生安全事件检测及事件集合构建方案，通过确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新，基于静态文本数据构建的事件集合可以实现对动态文本数据的检测，进而提高互联网新闻流数据的检测效率，形成特定主题下相关舆情分析数据。

附图说明

图1为本发明实施例提供的一种公共卫生安全事件检测及事件集合构建方法的流程示意图；

图2为本发明实施例提供的另一种公共卫生安全事件检测及事件集合构建方法的流程示意图；

图3为本发明实施例提供的一种公共卫生安全事件检测及事件集合构建系统的结构示意图；

图4为本发明实施例提供的一种的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的一种公共卫生安全事件检测及事件集合构建方法的流程示意图，如图1所示，该方法具体包括：

S11、确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据。

本发明实施例提供的公共卫生安全事件检测及事件集合构建方法应用于互联网新闻流数据的分析检测处理，互联网新闻流数据具体可以是公共卫生安全事件相关的舆情，公共卫生安全事件可以是突然性传染病，该方法可以主要用于传染病防控中信息的监测和舆论监控。

进一步地，通过静态数据(第一文本数据)构建事件集合，再通过动态数据(第二文本数据)对事件集合进行动态更新，以保证事件集合中的目标事件的及时性和有效性。

进一步地，预先选定的多个第一文本数据，该第一文本数据可以是新闻报道，即对新近发生的事实的报道，按照主题-事件的层次关系，依次对多个第一文本数据进行主题检测和事件检测。

具体地，对多个第一文本数据进行主题检测，确定多个第一文本数据对应的多个主体信息，例如，参照表1，第一文本的数据的数量为100个，对100个第一文本数据进行主题检测，确定100个第一文本数据对应有10个主题信息。

表1

S12、对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件。

根据确定的多个第一文本数据对应的多个主题进行再进行文本的聚类操作，即对多个主体信息依次再进行事件检测，确定每个主题信息对应的至少一个第一文本数据，将每个主题信息对应的第一文本数据作为该主题下的目标事件。

例如，主题信息A对应有7个第一文本信息；主题信息B对应有13个第一文本信息；主题信息C对应有1个第一文本信息；主题信息D对应有11个第一文本信息；主题信息F对应有12个第一文本信息；主题信息G对应有21个第一文本信息；主题信息H对应有9个第一文本信息；主题信息I对应有9个第一文本信息。

S13、将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合。

将多个第一文本数据包含的全部主题信息，以及每个主题信息对应的至少一个目标事件作为事件集合。

例如，事件集合可以是：主题信息A下的7个目标事件、题信息B下的13个目标事件；主题信息C下的1个目标事件；主题信息D下的11个目标事件；主题信息F下的12个目标事件；主题信息G下的21个目标事件；主题信息H下的9个目标事件；主题信息I下的9个目标事件。

S14、从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据。

通过关键词检测的形式从互联网新闻流数据中抓取与事件集合中主题信息相匹配的第二文本数据，该关键词可以与事件集合中的主题信息相对应，即将互联网新闻流数据中出现关键词的文本作为第二文本数据。

例如，主题信息为2016年里约奥运会，对应的关键词可以是：里约and奥运会，第二文本数据为包含有里约and奥运会的文本。

S15、基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新。

对获取到的第二文本数据进行归属度的计算，归属度可以表征第二文本数据归属于目标事件的概率大小，若归属度大于一定值时，则表明该第二文本高度归属于该目标事件，因此将该第二文本数据添加至该目标事件中，反之则在该事件集合中新建包含第二文本数据的目标事件，进而完成事件集合的更新。

本发明实施例提供的公共卫生安全事件检测及事件集合构建方法，通过确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新，基于静态文本数据构建的事件集合可以实现对动态文本数据的检测，进而提高互联网新闻流数据的检测效率，形成特定主题下相关舆情分析数据。

图2为本发明实施例提供的另一种公共卫生安全事件检测及事件集合构建方法的流程示意图，如图2所示，该方法具体包括：

S21、确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据。

预先选定的多个第一文本数据，该第一文本数据可以是新闻报道，即对新近发生的事实的报道，按照主题-事件的层次关系，依次对多个第一文本数据进行主题检测和事件检测。

具体地，采用文档主题生成(Latent Dirichlet Allocation，LDA)模型对多个第一文本数据进行主题检测，以使LDA模型输出每个第一文本数据对应的主题分布向量，基于主题分布向量采用DBSCAN聚类算法对全部第一文本数据进行聚类，进而得到全部的主体信息以及每个主题信息包含的至少一个第一文本数据。

例如，参照表1，第一文本的数据的数量为100个，对100个第一文本数据输入至LDA模型，以使LDA模型输出100个第一文本数据对应的100个主题分布向量，进而统计得到确定100个第一文本数据对应有10个主题分布向量。

表2

S22、对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件。

按照主题-事件的关系对每个主题信息对应的至少一个第一文本数据进行事件检测，对至少一个第一文本数据进行分词处理，采用TF-IDF算法对分词处理后的第一文本数据进行向量化处理，得到第一文本数据的TF-IDF向量。

根据TF-IDF向量之间的相似度对相同主题信息下的第一文本数据再采用DBSCAN聚类算法进行聚类，得到该主题信息下对应的至少一个目标事件。

进一步地，计算TF-IDF向量的TF-IDF计算公式可以是：

TF-IDF(x)＝TF(x)*IDF(x)

其中，TF(x)为单词X在第一文本数据中出现的匹数，IDF(x)为单词X在第一文本数据中逆文档频数，；N(x)表示语料库中包含单词x的文档数量；N表示语料库中文档的总数。

S23、将全部所述主题分布向量以及每个所述主题分布向量对应的至少一个所述目标事件作为事件集合。

S24、根据所述事件集合中所述主题信息确定对应的关键词。

S25、通过关键词检测从互联网新闻流数据中过滤出与所述主题信息相匹配的第二文本数据。

从事件集合中的主题信息中选择关键词，该关键词可以表征对应的主题信息，根据该关键词从互联网新闻流数据中的文本抓取，获取互联网新闻流数据中包含有关键词的第二文本数据。

S26、确定所述第二文本数据与所述事件集合中目标事件的文本相似度。

具体地，对所述第二文本数据进行分词处理，确定分词处理后的所述第二文本的第一TF-IDF向量；确定所述目标事件中主事件的第二TF-IDF向量；将所述第一TF-IDF向量和所述第二TF-IDF向量之间的余弦相似度作为所述第二文本数据与所述目标事件的文本相似度。

进一步地，文本相似度可通过如下公式计算：

其中，vec_news为第二文本的第一TF-IDF向量，vec_event为目标事件中主事件的第二TF-IDF向量。

S27、确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度。

第二文本数据中包含有多个实体，多个实体构成实体集合，实体可以是：时间、地点、人物、组织、机构等，在本实施例中，将第一实体设置为非时间实体，将第二实体设置为时间实体，便于后续第二文本数据中实体集合和目标事件中实体集合交集的计算。

具体地，从所述第二文本数据中确定第一实体和第二实体，所述第一实体为非时间实体，所述第二实体为时间实体；确定第二文本数据中第一实体与所述第二实体集合中对应实体的余弦相似度；若所述第一实体与所述第二实体集合中对应实体的余弦相似度大于第三阈值，则将所述第一实体添加至所述第一实体集合；若所述第二文本数据中的第二实体与所述第二实体集合中对应实体的差值小于第四阈值，则将所述第二实体添加至所述第一实体集合。

例如，通过预先训练的词向量确定每个实体对应的实体向量，通过两实体向量计算两个实体之间的余弦相似(仅适用于第一实体)，第三阈值可以为80％，即，第一实体集合中的第一实体与第二实体集合中对应实体的余弦相似度大于80％，第四阈值可以为80h，即第一实体集合中的第二实体与第二实体集合中对应实体的时间差小于80h。

需要说明的是：本实施例的第三阈值和第四阈值可根据实际需求进行设定，对此本实施例不作具体限定。

进一步地，从所述第二文本数据确定对应的第一实体集合；从所述目标事件中确定对应的第二实体集合；将采用JACCARD相似度算法确定的所述第一实体集合与所述第二实体集合之间的相似度作为所述第二文本数据与所述目标事件的实体集合相似度。

具体地，实体集合相似度可通过如下公式确定：

其中，nodeset_news为第一实体集合，nodeset_event为第二实体集合，w_i为该实体在目标事件中的关键性得分(该得分由对应实体出现的频数确定)。

S28、确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度。

具体地，确定所述第二文本数据中第一实体集合中实体对应的第一语义角色分布向量；确定所述目标事件的第二实体集合中与所述第一实体集合相交实体对应的第二语义角色分布向量；采用JS距离度量所述第一语义角色分布向量和所述第二语义角色分布向量的相似度；按照所述相交实体出现的频数对所述相似度进行加权平均计算，得到所述第二文本数据与所述目标事件的实体语义角色相似度。

进一步地，采用pyltp工具分别对第二文本数据和目标事件中包含实体的语义角色进行标注，通过统计各个实体的语义角色以及作为该语义角色出现在第二文本数据和目标事件中的频数；在本实施例中仅考虑施事、当事、领事、感事、受事、客事、成事、源事、涉事、比较、属事等20中语义角色，根据各个实体的语义角色以及各自角色出现的频数为每个实体，构建一个长度为20维的向量V，向量的分量v_i表示该实体在第i个语义角色上的归一化的频率，第一实体集合中实体对应的第一语义角色分布向量可以是V’，第二实体集合中与所述第一实体集合相交实体对应的第二语义角色分布向量可以是V”，再使用JS(Jensen-Shannon Divergence)距离计算所述第一语义角色分布向量和所述第二语义角色分布向量的相似度，按照所述相交实体出现的频数对所述相似度进行加权平均计算，得到所述第二文本数据与所述目标事件的实体语义角色相似度。

进一步地，JS距离的计算公式可以是：

其中，V表示语义角色集合，P为实体在第二文本数据中的语义角色分布，Q为实体在目标事件中的语义角色分布。

S29、基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度。

具体地，将所述文本相似度、所述实体集合相似度和所述实体语义角色相似度的算数平均值作为所述第二文本数据与所述事件集合中目标事件的归属度。

例如，基于kd树模型为互联网新闻流数据中的每一篇新闻报道计算事件归属度并找到归属度最高的事件编码。

S210、若所述归属度大于第一阈值，则将所述第二文本数据合并至对应的目标事件。

S211、若所述归属度小于等于第一阈值，则基于所述第二文本数据在所述事件集合中创建新事件。

若kd树模型输出的归属度大于90％，则表明该第二文本高度归属于该目标事件，因此将该第二文本数据添加至该目标事件中，反之则在该事件集合中新建包含第二文本数据的目标事件。

S212、对所述事件集合进行更新。

具体地，若所述事件集合中目标事件未更新的时长超过第二阈值，则将目标事件移除所述事件集合；若所述事件集合中目标事件存在更新，则重新计算更新后的所述目标事件中的主事件。

进一步地，对事件集合中的目标事件进行更新，更新的方式可以是移除失活的目标事件，或重新计算目标事件中的主事件。

例如，若所述事件集合中目标事件未更新的时长超过7天，则表明该目标事件已失活，则将失活的目标事件移除事件集合。

又如，若新事件(第二文本数据)添加至目标事件，则调整目标事件中的主事件，调整方式可以是：计算该新事件对应新闻与目标事件对应的所有新闻的文本相似度(S26中文本相似度的计算方式类似)，计算各个事件与其他事件相似性的平均值，将平均值最大的事件确定为新的事件主事件。

基于静态数据确定的事件集合再对互联网新闻流数据进行动态数据监测，进而更新事件集合。

事件集合中的主题信息可以是：M国流感

M国流感相关舆情目标事件：

·M国出现40年来最“致命”流感

·M国今冬流感已致105名儿童死亡同期死亡人数第二高

·M国爆发致命流感！已有10000人死亡，感染人数超1900万

·M国当季至少3400万人感染流感，2万人死亡

图3为本发明实施例提供的一种公共卫生安全事件检测及事件集合构建系统的结构示意图，如图3所示，该方法具体包括：

静态事件检测模块301，用于确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；

动态事件检测模块302，用于从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；

事件更新模块303，用于基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于根据所述事件集合中所述主题信息确定对应的关键词；通过关键词检测从互联网新闻流数据中过滤出与所述主题信息相匹配的第二文本数据。

在一个可能的实施方式中，所述事件更新模块303，具体用于若所述归属度大于第一阈值，则将所述第二文本数据合并至对应的目标事件；若所述归属度小于等于第一阈值，则基于所述第二文本数据在所述事件集合中创建新事件。

在一个可能的实施方式中，所述动态事件检测模块302，还用于确定所述第二文本数据与所述事件集合中目标事件的文本相似度；确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度；确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度；基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于对所述第二文本数据进行分词处理，确定分词处理后的所述第二文本的第一TF-IDF向量；确定所述目标事件中主事件的第二TF-IDF向量；将所述第一TF-IDF向量和所述第二TF-IDF向量之间的余弦相似度作为所述第二文本数据与所述目标事件的文本相似度。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于从所述第二文本数据确定对应的第一实体集合；从所述目标事件中确定对应的第二实体集合；将采用JACCARD相似度算法确定的所述第一实体集合与所述第二实体集合之间的相似度作为所述第二文本数据与所述目标事件的实体集合相似度。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于从所述第二文本数据中确定第一实体和第二实体，所述第一实体为非时间实体，所述第二实体为时间实体；确定第二文本数据中第一实体与所述第二实体集合中对应实体的余弦相似度；若所述第一实体与所述第二实体集合中对应实体的余弦相似度大于第三阈值，则将所述第一实体添加至所述第一实体集合；若所述第二文本数据中的第二实体与所述第二实体集合中对应实体的差值小于第四阈值，则将所述第二实体添加至所述第一实体集合。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于确定所述第二文本数据中第一实体集合中实体对应的第一语义角色分布向量；确定所述目标事件的第二实体集合中与所述第一实体集合相交实体对应的第二语义角色分布向量；采用JS距离度量所述第一语义角色分布向量和所述第二语义角色分布向量的相似度；按照所述相交实体出现的频数对所述相似度进行加权平均计算，得到所述第二文本数据与所述目标事件的实体语义角色相似度。

在一个可能的实施方式中，所述动态事件检测模块302，具体用于将所述文本相似度、所述实体集合相似度和所述实体语义角色相似度的算数平均值作为所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，所述事件更新模块303，还用于若所述事件集合中目标事件未更新的时长超过第二阈值，则将目标事件移除所述事件集合；若所述事件集合中目标事件存在更新，则重新计算更新后的所述目标事件中的主事件。

本实施例提供的公共卫生安全事件检测及事件集合构建系统可以是如图3中所示的公共卫生安全事件检测及事件集合构建系统，可执行如图1-2中公共卫生安全事件检测及事件集合构建方法的所有步骤，进而实现图1-2所示公共卫生安全事件检测及事件集合构建方法的技术效果，具体请参照图1-2相关描述，为简洁描述，在此不作赘述。

图4为本发明实施例提供的一种的计算机设备的结构示意图，图4所示的计算机设备400包括：至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。计算机设备400中的各个组件通过总线系统405耦合在一起。可理解，总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统405。

其中，用户接口403可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统4021和应用程序4022。

其中，操作系统4021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序4022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。

在本发明实施例中，通过调用存储器402存储的程序或指令，具体的，可以是应用程序4022中存储的程序或指令，处理器401用于执行各方法实施例所提供的方法步骤，例如包括：

确定多个第一文本数据对应的多个主题信息，以及每个所述主题信息对应的至少一个所述第一文本数据；对每个所述主题信息对应的至少一个所述第一文本数据进行事件检测，确定每个所述主题信息对应的至少一个目标事件；将全部所述主题信息以及每个所述主题信息对应的至少一个所述目标事件作为事件集合；从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据；基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新。

在一个可能的实施方式中，根据所述事件集合中所述主题信息确定对应的关键词；通过关键词检测从互联网新闻流数据中过滤出与所述主题信息相匹配的第二文本数据。

在一个可能的实施方式中，若所述归属度大于第一阈值，则将所述第二文本数据合并至对应的目标事件；若所述归属度小于等于第一阈值，则基于所述第二文本数据在所述事件集合中创建新事件。

在一个可能的实施方式中，确定所述第二文本数据与所述事件集合中目标事件的文本相似度；确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度；确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度；基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，对所述第二文本数据进行分词处理，确定分词处理后的所述第二文本的第一TF-IDF向量；确定所述目标事件中主事件的第二TF-IDF向量；将所述第一TF-IDF向量和所述第二TF-IDF向量之间的余弦相似度作为所述第二文本数据与所述目标事件的文本相似度。

在一个可能的实施方式中，从所述第二文本数据确定对应的第一实体集合；从所述目标事件中确定对应的第二实体集合；将采用JACCARD相似度算法确定的所述第一实体集合与所述第二实体集合之间的相似度作为所述第二文本数据与所述目标事件的实体集合相似度。

在一个可能的实施方式中，从所述第二文本数据中确定第一实体和第二实体，所述第一实体为非时间实体，所述第二实体为时间实体；确定第二文本数据中第一实体与所述第二实体集合中对应实体的余弦相似度；若所述第一实体与所述第二实体集合中对应实体的余弦相似度大于第三阈值，则将所述第一实体添加至所述第一实体集合；若所述第二文本数据中的第二实体与所述第二实体集合中对应实体的差值小于第四阈值，则将所述第二实体添加至所述第一实体集合。

在一个可能的实施方式中，确定所述第二文本数据中第一实体集合中实体对应的第一语义角色分布向量；确定所述目标事件的第二实体集合中与所述第一实体集合相交实体对应的第二语义角色分布向量；采用JS距离度量所述第一语义角色分布向量和所述第二语义角色分布向量的相似度；按照所述相交实体出现的频数对所述相似度进行加权平均计算，得到所述第二文本数据与所述目标事件的实体语义角色相似度。

在一个可能的实施方式中，将所述文本相似度、所述实体集合相似度和所述实体语义角色相似度的算数平均值作为所述第二文本数据与所述事件集合中目标事件的归属度。

在一个可能的实施方式中，若所述事件集合中目标事件未更新的时长超过第二阈值，则将目标事件移除所述事件集合；若所述事件集合中目标事件存在更新，则重新计算更新后的所述目标事件中的主事件。

上述本发明实施例揭示的方法可以应用于处理器401中，或者由处理器401实现。处理器401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的计算机设备可以是如图4中所示的计算机设备，可执行如图1-2中公共卫生安全事件检测及事件集合构建方法的所有步骤，进而实现图1-2所示公共卫生安全事件检测及事件集合构建方法的技术效果，具体请参照图1-2相关描述，为简洁描述，在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在公共卫生安全事件检测及事件集合构建设备侧执行的公共卫生安全事件检测及事件集合构建方法。

所述处理器用于执行存储器中存储的公共卫生安全事件检测及事件集合构建程序，以实现以下在公共卫生安全事件检测及事件集合构建设备侧执行的公共卫生安全事件检测及事件集合构建方法的步骤：

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种公共卫生安全事件检测及事件集合构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从互联网新闻流数据中获取与所述事件集合中所述主题信息相匹配的第二文本数据，包括：

根据所述事件集合中所述主题信息确定对应的关键词；

3.根据权利要求2所述的方法，其特征在于，所述基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新，包括：

4.根据权利要求3所述的方法，其特征在于，在所述基于所述第二文本数据与所述事件集合中目标事件的归属度对所述事件集合进行更新之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述第二文本数据与所述事件集合中目标事件的文本相似度，包括：

确定所述目标事件中主事件的第二TF-IDF向量；

6.根据权利要求4所述的方法，其特征在于，所述确定所述第二文本数据与所述事件集合中目标事件的实体集合相似度，包括：

从所述第二文本数据确定对应的第一实体集合；

从所述目标事件中确定对应的第二实体集合；

7.根据权利要求6所述的方法，其特征在于，所述从所述第二文本数据确定对应的第一实体集合，包括：

8.根据权利要求7所述的方法，其特征在于，所述确定所述第二文本数据与所述事件集合中目标事件的实体语义角色相似度，包括：

9.根据权利要求5-8任一所述的方法，其特征在于，所述基于所述文本相似度、所述实体集合相似度、所述实体语义角色相似度确定所述第二文本数据与所述事件集合中目标事件的归属度，包括：

10.根据权利要求3所述的方法，其特征在于，所述方法还包括：

11.一种公共卫生安全事件检测及事件集合构建系统，其特征在于，包括：

12.一种计算机设备，其特征在于，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的公共卫生安全事件检测及事件集合构建程序，以实现权利要求1～10中任一项所述的公共卫生安全事件检测及事件集合构建方法。

13.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～10中任一项所述的公共卫生安全事件检测及事件集合构建方法。