CN113468321A

CN113468321A - 一种基于大数据的事件聚合分析方法和系统

Info

Publication number: CN113468321A
Application number: CN202111022141.XA
Authority: CN
Inventors: 魏亮; 余建; 周建祥
Original assignee: Jiangsu Jinling Sci&tech Group Co ltd
Current assignee: Jiangsu Jinling Sci&tech Group Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-10-01
Anticipated expiration: 2041-09-01
Also published as: CN113468321B

Abstract

本发明公开了一种基于大数据的事件聚合分析方法，判断原始文本分句是否是一条描述事件的语句，若是，则将所述描述事件的语句添加到备选事件索引库；根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；对所述的相关事件文本进行综合分析，确定分析结果；将所述分析结果生成可视化报告。还提供了一种基于大数据的事件聚合分析系统，包括判断模块、索引模块、查询模块、分析模块和可视化模块；使用者只需要简单地输入事件涉及词和事件时间，就可以得到基于全量文本的事件分析报告；提供了基于事件发展态势、事件主流观点、事件关键主题等维度的可视化事件分析报告，有助于使用者更宏观的把控事件。

Description

一种基于大数据的事件聚合分析方法和系统

技术领域

本发明属于大数据技术领域，具体涉及一种基于大数据的事件聚合分析方法和系统。

背景技术

随着大数据技术和自然语言处理技术的迅猛发展，从非结构化文本中提取有效知识加以利用的相关应用越来越多，且不乏在实际工程中落地并取得良好效果者。从文本中分析事件信息是非结构化文本处理的一个重要方向。当前文本事件分析主要思路是通过人工智能技术，从文本中识别出事件相关主体和主体关系。然而这种思路使用的相关人工智能技术，依赖不同的事件模型建立和特定语料标注，需要很大的额外人工成本。而且这种思路的着重点在于，从每一小段文本挖掘出的事件主体和主体之间关系，不断提高事件主体和关系的识别率和准确率，这种分析方式下，文本中提取的事件相对独立，缺少了对事件的宏观分析，比如对事件发展态势的分析、事件在不同周期的主流观点分析等，文本事件分析有着广阔的发展空间。

发明内容

本发明的目的在于提供一种基于大数据的事件聚合分析方法和系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于大数据的事件聚合分析方法，包括如下步骤：

1）：基于原始文本分句，判断原始文本分句是否是一条描述事件的语句，若是，则将所述描述事件的语句添加到备选事件索引库；

2）：根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；

3）：对所述的相关事件文本进行综合分析，确定分析结果；

4）：将所述分析结果生成可视化报告，输出至用户端。

优选的，所述步骤1）中判断原始文本分句是否是一条描述事件的语句包括：对原始文本进行句级别的拆分，并制定“判断语句是否是一条描述事件的语句”规则，所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种，根据所述规则，判断分句是否是一条描述事件的语句；其中，

实体类型匹配：句子包含时间类型实体和人物类型命名实体，判断为描述事件语句；

分词词性匹配：对句子进行词性识别与句法依存识别，存在主谓搭配结构的，判断为描述事件语句；

特殊触发词匹配：句子包含特殊触发词，判断为描述事件语句。

优选的，所述备选事件索引库需要存储的内容包括：描述事件的语句的文字内容、原始文本来源信息、对语句中包含的日期要素标准化处理后的日期信息。

优选的，所述步骤2）中，根据文本搜索匹配条件和事件时间范围，将符合条件的事件相关文本，从备选事件索引库中召回。

优选的，所述步骤3）具体包括：

基于事件相关文本的数量信息，分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计；

基于事件相关文本的文字内容，提取出关键词及热点实体；

计算文本间的语义相似性，对全部事件相关文本进行聚类分析，得到不同文本簇，每个簇包含相似主题；

使用文本自动摘要算法，对不同时间周期内的事件相关文本进行关键句分析，提取该时间周期内的事件描述摘要。

本发明还提供了一种基于大数据的事件聚合分析系统，包括：

判断模块，用于对原始文本分句，判断分句是否是一条用于描述事件的语句；

索引模块，用于将所述描述事件的语句添加到备选事件索引库；

查询模块，用于根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；

分析模块，用于对所述的相关事件文本进行综合分析，确定分析结果；

可视化模块，将所述分析结果生成可视化报告，输出至用户端，还用于：根据所述分析结果，生成相应的图表，进行排版，输出网页、文件形式的报告，供用户侧取用。

优选的，所述判断模块包括：

分句子模块，用于对原始文本进行句级别的拆分；

规则制定模块，制定“判断语句是否是一条描述事件的语句”规则，所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配的一种或多种；

规则生效模块，用于根据所述规则，判断分句是否是一条描述事件的语句。

优选的，所述索引模块，还用于：

存储描述事件的语句的文字内容；

存储原始文本来源信息；

存储对语句中包含的日期要素标准化处理后的日期信息。

优选的，所述的查询模块，还用于：

根据文本搜索匹配条件和事件时间范围，将符合条件的事件相关文本，从备选事件索引库中召回。

优选的，所述分析模块包括：

数量分析子模块，用于基于事件相关文本的数量信息，分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计；

关键字与关键命名实体提取子模块，用于基于事件相关文本的文字内容，提取出关键词及关键命名实体，命名实体包括人名、地名、组织、机构名；

聚类子模块，用于计算文本间的语义相似性，对全部事件相关文本进行聚类分析，得到不同文本簇，每个簇包含相似主题；

摘要子模块，用于使用文本自动摘要算法，对不同时间周期内的事件相关文本进行关键句分析，提取该时间周期内的事件描述摘要。

本发明的技术效果和优点：使用者只需要简单地输入事件涉及词和事件时间，就可以得到基于全量文本的事件分析报告；

提供了基于事件发展态势、事件主流观点、事件关键主题等维度的可视化事件分析报告，有助于使用者更宏观的把控事件。

附图说明

图1是本发明的一种基于大数据的事件聚合分析方法的流程图；

图2是本发明的一种基于大数据的事件聚合分析系统的框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

图1给出了本申请的基于大数据的事件聚合分析方法的流程图。具体步骤如下：

步骤101，基于原始文本分句，判断原始文本分句是否是一条描述事件的语句。

在实际应用中，原始文本的来源可以是存储介质上能被读取的非结构化文件，可以是数据库中指定的某表某字段内容，也可以是任何能通过传输介质接入的包含文本内容的数字信息。本发明实施例对此不设限制。

在本发明的一种优选实时例中，基于原始文本分句，判断分句是否是一条描述事件的语句的步骤包括：

对原始文本进行句级别的拆分；

根据实际工程需要，制定“判断语句是否是一条描述事件的语句”规则，所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种；根据所述规则，判断分句是否是一条描述事件的语句；

特殊触发词匹配：句子包含特殊触发词，判断为描述事件语句；

其中，对原始文本进形句级别的拆分，根据工程需要，文本拆分力度可适当削弱，比如在某些工程中，原始文本为长期积累的大量人工整编的文档，因为原始文本已经经是高质量的对事件描述的文本，所以对原始文本只进行段级别的拆分或甚至不拆分直接使用，可以更大程度的保留事件信息，提高后续分析结果的准确度。

其中，制定“判断语句是否是一条描述事件的语句”规则，所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种。一般来说，对于整编过的规范表述类文本，当分句中包含日期或者时间时，即可认作为事件描述；而对于微博这类网络数据，每条数据有对应的发布时间，针对业务要求，可以整理业务相关的词典，当文本中包含词典中的触发词，即可作为事件描述文本。不同的工程中，应当结合原始文本的特点和业务方实际需求，采用合适的判断规则。

步骤102，若是，则将所述描述事件的语句添加到备选事件索引库；

所述索引库需要存储的内容包括描述事件的语句的文字内容，包括原始文本来源信息，包括对语句中包含的日期要素标准化处理后的日期信息，包括由经过分析或处理而衍生出的其他内容；

其中，原始文本来源信息可以是非结构化文档在文件管理体系中的所处目录，可以是结构化数据中某库某表的名称，进一步的，来源信息可以是文档作者名、文档提供方名，可以是结构化数据中该条记录对应的某个字段值，进一步的，文本来源信息是任何能用于对输入文本区分且在业务上有统计分析意义的值。

其中，对语句中包含的日期要素标准化处理后的日期信息，最主要的工作是将口语化的日期表述，转换成所述索引库可接受的格式。例如某2021年6月的一篇新闻，有段表述是“3日凌晨”，那么对应的日期要素应当结合新闻发布的时间，补全成“2021-06-03”日期；又例如某篇报道表述是“2021年06月01日，xxx。次日，xxxx”，其中的“次日”是一种相对时间，应根据前文的日期，翻译成“2021-06-02”。

其中事件索引库，作用是给后续检索提供底层支撑；实际应用中，一般采用基于Lucene的全文检索引擎。

步骤103，根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；

可以根据文本搜索匹配条件和事件时间范围，将符合条件的事件相关文本，从备选事件索引库中召回，后续的聚合分析将基于所属召回的文本进行。

其中，文本搜索匹配条件，包括了包含全部词、包含任意词、不包含任意词三种条件以及所述三种条件的任意组合；

包含全部词：a b -》句子必须包含‘a’和‘b’两个词；

包含任意词：c d -》句子中包含‘c’或者‘d’任何一个词都行；

不包含任意词：e -》句子中不能出现‘e’字眼；

其中事件时间范围，对应的是步骤102中的标准化日期范围。

步骤104，对所述的相关事件文本进行综合分析，确定分析结果的步骤包括：

基于事件相关文本的文字内容，提取出关键词及热点实体；

计算文本间的语义相似性，计算方法包括k-means聚类算法，对全部事件相关文本进行聚类分析，得到不同文本簇，每个簇包含相似主题；

使用文本自动摘要算法，包括TextRank算法，对不同时间周期内的事件相关文本进行关键句分析，提取该时间周期内的事件描述摘要；

其中计算关键词，可采用TF_IDF算法实现，TF_IDF的公式为:

，

其中，t代表单词，d代表事件分句，TF(t,d)表示t在d中出现的频次，DF(t)代表有多少个事件分句中包含t。实际应用时，对该式的IDF值加以修正，防止浮点计算异常。

其中热点实体，在实际应用中，主要统计人名、地名、组织、机构名这几种特殊类型，根据业务需求，可扩展不同实体类型进行统计。

其中的对不同时间周期内的事件相关文本进行关键句分析，需要对全部文本按照时间进行分组，然后对每一组的文本使用textRank算法提取关键句子，组合成为当前时间周期内描述摘要。当数据量较大，且硬件资源有限时，摘要提取算法无法顺利执行，应对文本规模进行缩减。一种处理方式为，先对大量文本进行k-means进行聚类，以固定比例从每个类簇中取部分句子，重新进行关键句提取；

步骤105，将所述分析结果生成可视化报告，输出至用户端；

根据所述分析结果，生成相应的图表，进行排版，输出网页、文件等形式的报告，供用户侧取用。

图2给出了本申请的基于大数据的事件聚合分析系统的框架图，具体包括以下模块：

判断模块201，用于对原始文本分句，判断分句是否是一条用于描述事件的语句；

索引模块202，用于将所述描述事件的语句添加到备选事件索引库；

查询模块203，用于根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；

分析模块204，用于对所述的相关事件文本进行综合分析，确定分析结果；

可视化模块205，将所述分析结果生成可视化报告，输出至用户端。

具体的，所述的判断模块201包括：

分句子模块201-1，用于对原始文本进行句级别的拆分；

规则制定模块201-2，用于根据实际工程需要，制定“判断语句是否是一条描述事件的语句”规则，所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种；

规则生效模块201-3，用于根据所述规则，判断分句是否是一条描述事件的语句；

具体的，所述的索引模块202，还用于：

存储描述事件的语句的文字内容；

存储原始文本来源信息；

存储对语句中包含的日期要素标准化处理后的日期信息；

存储经过分析或处理文本而衍生出的其他内容信息；

具体的，所述的查询模块203，还用于：

根据文本搜索匹配条件和事件时间范围，将符合条件的事件相关文本，从备选事件索引库中召回，后续的聚合分析将基于所属召回的文本进行；

具体的，所述分析模块204，用于对所述的相关事件文本进行综合分析，确定分析结果，包括：

数量分析子模块204-1，用于基于事件相关文本的数量信息，分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计；

关键字与关键命名实体提取子模块204-2，用于基于事件相关文本的文字内容，提取出关键词及关键命名实体，命名实体包括人名、地名、组织、机构名；

聚类子模块204-3 ，用于计算文本间的语义相似性，对全部事件相关文本进行聚类分析，得到不同文本簇，每个簇包含相似主题；

摘要子模块204-4，用于使用文本自动摘要相关算法，对不同时间周期内的事件相关文本进行关键句分析，提取该时间周期内的事件描述摘要；

具体的，所述可视化模块205，将所述分析结果生成可视化报告，输出至用户端，还用于：

对于系统而言，由于其与方法实施例基本相似，只简易描述，详细参见方法实施例的描述。

本领域的技术人员应明白，本实施例可提供为软件、固件、硬件及其适当的组合。本发明实施例还可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于大数据的事件聚合分析方法，其特征在于，包括如下步骤：

1）基于原始文本分句，判断原始文本分句是否是一条描述事件的语句，若是，则将所述描述事件的语句添加到备选事件索引库；

2）根据事件时间范围和事件涉及关键字，从备选事件索引库中查询相匹配的相关事件文本；

3）对所述的相关事件文本进行综合分析，确定分析结果；

4）将所述分析结果生成可视化报告，输出至用户端。

2.根据权利要求1所述的一种基于大数据的事件聚合分析方法，其特征在于：所述步骤1）中判断原始文本分句是否是一条描述事件的语句包括：

对原始文本进行句级别的拆分，并制定“判断语句是否是一条描述事件的语句”规则，所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种，根据所述规则，判断分句是否是一条描述事件的语句；其中，

3.根据权利要求1所述的一种基于大数据的事件聚合分析方法，其特征在于：所述步骤1）中备选事件索引库需要存储的内容包括：描述事件的语句的文字内容、原始文本来源信息、对语句中包含的日期要素标准化处理后的日期信息。

4.根据权利要求1所述的一种基于大数据的事件聚合分析方法，其特征在于：所述步骤2）中根据文本搜索匹配条件和事件时间范围，将符合条件的事件相关文本，从备选事件索引库中召回。

5.根据权利要求1所述的一种基于大数据的事件聚合分析方法，其特征在于：所述步骤3）具体包括：

基于事件相关文本的文字内容，提取出关键词及热点实体；

6.一种基于大数据的事件聚合分析系统，其特征在于，包括：

可视化模块，将所述分析结果生成可视化报告，输出至用户端。

7.根据权利要求6所述的一种基于大数据的事件聚合分析系统，其特征在于：所述判断模块包括：

分句子模块，用于对原始文本进行句级别的拆分；

规则制定模块，制定“判断语句是否是一条描述事件的语句”规则，所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种；

8.根据权利要求6所述的一种基于大数据的事件聚合分析系统，其特征在于：所述索引模块，还用于：

存储描述事件的语句的文字内容；

存储原始文本来源信息；

存储对语句中包含的日期要素标准化处理后的日期信息。

9.根据权利要求6所述的一种基于大数据的事件聚合分析系统，其特征在于：所述的查询模块，还用于：

10.根据权利要求6所述的一种基于大数据的事件聚合分析系统，其特征在于：所述分析模块包括：