CN113468321A - 一种基于大数据的事件聚合分析方法和系统 - Google Patents

一种基于大数据的事件聚合分析方法和系统 Download PDF

Info

Publication number
CN113468321A
CN113468321A CN202111022141.XA CN202111022141A CN113468321A CN 113468321 A CN113468321 A CN 113468321A CN 202111022141 A CN202111022141 A CN 202111022141A CN 113468321 A CN113468321 A CN 113468321A
Authority
CN
China
Prior art keywords
event
sentence
text
module
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111022141.XA
Other languages
English (en)
Other versions
CN113468321B (zh
Inventor
魏亮
余建
周建祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Jinling Sci&tech Group Co ltd
Original Assignee
Jiangsu Jinling Sci&tech Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Jinling Sci&tech Group Co ltd filed Critical Jiangsu Jinling Sci&tech Group Co ltd
Priority to CN202111022141.XA priority Critical patent/CN113468321B/zh
Publication of CN113468321A publication Critical patent/CN113468321A/zh
Application granted granted Critical
Publication of CN113468321B publication Critical patent/CN113468321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于大数据的事件聚合分析方法,判断原始文本分句是否是一条描述事件的语句,若是,则将所述描述事件的语句添加到备选事件索引库;根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;对所述的相关事件文本进行综合分析,确定分析结果;将所述分析结果生成可视化报告。还提供了一种基于大数据的事件聚合分析系统,包括判断模块、索引模块、查询模块、分析模块和可视化模块;使用者只需要简单地输入事件涉及词和事件时间,就可以得到基于全量文本的事件分析报告;提供了基于事件发展态势、事件主流观点、事件关键主题等维度的可视化事件分析报告,有助于使用者更宏观的把控事件。

Description

一种基于大数据的事件聚合分析方法和系统
技术领域
本发明属于大数据技术领域,具体涉及一种基于大数据的事件聚合分析方法和系统。
背景技术
随着大数据技术和自然语言处理技术的迅猛发展,从非结构化文本中提取有效知识加以利用的相关应用越来越多,且不乏在实际工程中落地并取得良好效果者。从文本中分析事件信息是非结构化文本处理的一个重要方向。当前文本事件分析主要思路是通过人工智能技术,从文本中识别出事件相关主体和主体关系。然而这种思路使用的相关人工智能技术,依赖不同的事件模型建立和特定语料标注,需要很大的额外人工成本。而且这种思路的着重点在于,从每一小段文本挖掘出的事件主体和主体之间关系,不断提高事件主体和关系的识别率和准确率,这种分析方式下,文本中提取的事件相对独立,缺少了对事件的宏观分析,比如对事件发展态势的分析、事件在不同周期的主流观点分析等,文本事件分析有着广阔的发展空间。
发明内容
本发明的目的在于提供一种基于大数据的事件聚合分析方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的事件聚合分析方法,包括如下步骤:
1):基于原始文本分句,判断原始文本分句是否是一条描述事件的语句,若是,则将所述描述事件的语句添加到备选事件索引库;
2):根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
3):对所述的相关事件文本进行综合分析,确定分析结果;
4):将所述分析结果生成可视化报告,输出至用户端。
优选的,所述步骤1)中判断原始文本分句是否是一条描述事件的语句包括:对原始文本进行句级别的拆分,并制定“判断语句是否是一条描述事件的语句”规则,所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种,根据所述规则,判断分句是否是一条描述事件的语句;其中,
实体类型匹配:句子包含时间类型实体和人物类型命名实体,判断为描述事件语句;
分词词性匹配:对句子进行词性识别与句法依存识别,存在主谓搭配结构的,判断为描述事件语句;
特殊触发词匹配:句子包含特殊触发词,判断为描述事件语句。
优选的,所述备选事件索引库需要存储的内容包括:描述事件的语句的文字内容、原始文本来源信息、对语句中包含的日期要素标准化处理后的日期信息。
优选的,所述步骤2)中,根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回。
优选的,所述步骤3)具体包括:
基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
基于事件相关文本的文字内容,提取出关键词及热点实体;
计算文本间的语义相似性,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
使用文本自动摘要算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要。
本发明还提供了一种基于大数据的事件聚合分析系统,包括:
判断模块,用于对原始文本分句,判断分句是否是一条用于描述事件的语句;
索引模块,用于将所述描述事件的语句添加到备选事件索引库;
查询模块,用于根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
分析模块,用于对所述的相关事件文本进行综合分析,确定分析结果;
可视化模块,将所述分析结果生成可视化报告,输出至用户端,还用于:根据所述分析结果,生成相应的图表,进行排版,输出网页、文件形式的报告,供用户侧取用。
优选的,所述判断模块包括:
分句子模块,用于对原始文本进行句级别的拆分;
规则制定模块,制定“判断语句是否是一条描述事件的语句”规则,所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配的一种或多种;
规则生效模块,用于根据所述规则,判断分句是否是一条描述事件的语句。
优选的,所述索引模块,还用于:
存储描述事件的语句的文字内容;
存储原始文本来源信息;
存储对语句中包含的日期要素标准化处理后的日期信息。
优选的,所述的查询模块,还用于:
根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回。
优选的,所述分析模块包括:
数量分析子模块,用于基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
关键字与关键命名实体提取子模块,用于基于事件相关文本的文字内容,提取出关键词及关键命名实体,命名实体包括人名、地名、组织、机构名;
聚类子模块 ,用于计算文本间的语义相似性,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
摘要子模块,用于使用文本自动摘要算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要。
本发明的技术效果和优点:使用者只需要简单地输入事件涉及词和事件时间,就可以得到基于全量文本的事件分析报告;
提供了基于事件发展态势、事件主流观点、事件关键主题等维度的可视化事件分析报告,有助于使用者更宏观的把控事件。
附图说明
图1是本发明的一种基于大数据的事件聚合分析方法的流程图;
图2是本发明的一种基于大数据的事件聚合分析系统的框架图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
图1给出了本申请的基于大数据的事件聚合分析方法的流程图。具体步骤如下:
步骤101,基于原始文本分句,判断原始文本分句是否是一条描述事件的语句。
在实际应用中,原始文本的来源可以是存储介质上能被读取的非结构化文件,可以是数据库中指定的某表某字段内容,也可以是任何能通过传输介质接入的包含文本内容的数字信息。本发明实施例对此不设限制。
在本发明的一种优选实时例中,基于原始文本分句,判断分句是否是一条描述事件的语句的步骤包括:
对原始文本进行句级别的拆分;
根据实际工程需要,制定“判断语句是否是一条描述事件的语句”规则,所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种;根据所述规则,判断分句是否是一条描述事件的语句;
实体类型匹配:句子包含时间类型实体和人物类型命名实体,判断为描述事件语句;
分词词性匹配:对句子进行词性识别与句法依存识别,存在主谓搭配结构的,判断为描述事件语句;
特殊触发词匹配:句子包含特殊触发词,判断为描述事件语句;
其中,对原始文本进形句级别的拆分,根据工程需要,文本拆分力度可适当削弱,比如在某些工程中,原始文本为长期积累的大量人工整编的文档,因为原始文本已经经是高质量的对事件描述的文本,所以对原始文本只进行段级别的拆分或甚至不拆分直接使用,可以更大程度的保留事件信息,提高后续分析结果的准确度。
其中,制定“判断语句是否是一条描述事件的语句”规则,所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种。一般来说,对于整编过的规范表述类文本,当分句中包含日期或者时间时,即可认作为事件描述;而对于微博这类网络数据,每条数据有对应的发布时间,针对业务要求,可以整理业务相关的词典,当文本中包含词典中的触发词,即可作为事件描述文本。不同的工程中,应当结合原始文本的特点和业务方实际需求,采用合适的判断规则。
步骤102,若是,则将所述描述事件的语句添加到备选事件索引库;
所述索引库需要存储的内容包括描述事件的语句的文字内容,包括原始文本来源信息,包括对语句中包含的日期要素标准化处理后的日期信息,包括由经过分析或处理而衍生出的其他内容;
其中,原始文本来源信息可以是非结构化文档在文件管理体系中的所处目录,可以是结构化数据中某库某表的名称,进一步的,来源信息可以是文档作者名、文档提供方名,可以是结构化数据中该条记录对应的某个字段值,进一步的,文本来源信息是任何能用于对输入文本区分且在业务上有统计分析意义的值。
其中,对语句中包含的日期要素标准化处理后的日期信息,最主要的工作是将口语化的日期表述,转换成所述索引库可接受的格式。例如某2021年6月的一篇新闻,有段表述是“3日凌晨”,那么对应的日期要素应当结合新闻发布的时间,补全成“2021-06-03”日期;又例如某篇报道表述是“2021年06月01日,xxx。次日,xxxx”,其中的“次日”是一种相对时间,应根据前文的日期,翻译成“2021-06-02”。
其中事件索引库,作用是给后续检索提供底层支撑;实际应用中,一般采用基于Lucene的全文检索引擎。
步骤103,根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
可以根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回,后续的聚合分析将基于所属召回的文本进行。
其中,文本搜索匹配条件,包括了包含全部词、包含任意词、不包含任意词三种条件以及所述三种条件的任意组合;
包含全部词:a b -》句子必须包含‘a’和‘b’两个词;
包含任意词:c d -》句子中包含‘c’或者‘d’任何一个词都行;
不包含任意词:e -》句子中不能出现‘e’字眼;
其中事件时间范围,对应的是步骤102中的标准化日期范围。
步骤104,对所述的相关事件文本进行综合分析,确定分析结果的步骤包括:
基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
基于事件相关文本的文字内容,提取出关键词及热点实体;
计算文本间的语义相似性,计算方法包括k-means聚类算法,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
使用文本自动摘要算法,包括TextRank算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要;
其中计算关键词,可采用TF_IDF算法实现,TF_IDF的公式为:
Figure DEST_PATH_IMAGE001
其中,t代表单词,d代表事件分句,TF(t,d)表示t在d中出现的频次,DF(t)代表有多少个事件分句中包含t。实际应用时,对该式的IDF值加以修正,防止浮点计算异常。
其中热点实体,在实际应用中,主要统计人名、地名、组织、机构名这几种特殊类型,根据业务需求,可扩展不同实体类型进行统计。
其中的对不同时间周期内的事件相关文本进行关键句分析,需要对全部文本按照时间进行分组,然后对每一组的文本使用textRank算法提取关键句子,组合成为当前时间周期内描述摘要。当数据量较大,且硬件资源有限时,摘要提取算法无法顺利执行,应对文本规模进行缩减。一种处理方式为,先对大量文本进行k-means进行聚类,以固定比例从每个类簇中取部分句子,重新进行关键句提取;
步骤105,将所述分析结果生成可视化报告,输出至用户端;
根据所述分析结果,生成相应的图表,进行排版,输出网页、文件等形式的报告,供用户侧取用。
图2给出了本申请的基于大数据的事件聚合分析系统的框架图,具体包括以下模块:
判断模块201,用于对原始文本分句,判断分句是否是一条用于描述事件的语句;
索引模块202,用于将所述描述事件的语句添加到备选事件索引库;
查询模块203,用于根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
分析模块204,用于对所述的相关事件文本进行综合分析,确定分析结果;
可视化模块205,将所述分析结果生成可视化报告,输出至用户端。
具体的,所述的判断模块201包括:
分句子模块201-1,用于对原始文本进行句级别的拆分;
规则制定模块201-2,用于根据实际工程需要,制定“判断语句是否是一条描述事件的语句”规则,所述规则包括按实体类型匹配、分词词性匹配、特殊触发词匹配等一种或多种;
实体类型匹配:句子包含时间类型实体和人物类型命名实体,判断为描述事件语句;
分词词性匹配:对句子进行词性识别与句法依存识别,存在主谓搭配结构的,判断为描述事件语句;
特殊触发词匹配:句子包含特殊触发词,判断为描述事件语句;
规则生效模块201-3,用于根据所述规则,判断分句是否是一条描述事件的语句;
具体的,所述的索引模块202,还用于:
存储描述事件的语句的文字内容;
存储原始文本来源信息;
存储对语句中包含的日期要素标准化处理后的日期信息;
存储经过分析或处理文本而衍生出的其他内容信息;
具体的,所述的查询模块203,还用于:
根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回,后续的聚合分析将基于所属召回的文本进行;
具体的,所述分析模块204,用于对所述的相关事件文本进行综合分析,确定分析结果,包括:
数量分析子模块204-1,用于基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
关键字与关键命名实体提取子模块204-2,用于基于事件相关文本的文字内容,提取出关键词及关键命名实体,命名实体包括人名、地名、组织、机构名;
聚类子模块204-3 ,用于计算文本间的语义相似性,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
摘要子模块204-4,用于使用文本自动摘要相关算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要;
具体的,所述可视化模块205,将所述分析结果生成可视化报告,输出至用户端,还用于:
根据所述分析结果,生成相应的图表,进行排版,输出网页、文件等形式的报告,供用户侧取用。
对于系统而言,由于其与方法实施例基本相似,只简易描述,详细参见方法实施例的描述。
本领域的技术人员应明白,本实施例可提供为软件、固件、硬件及其适当的组合。本发明实施例还可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于大数据的事件聚合分析方法,其特征在于,包括如下步骤:
1)基于原始文本分句,判断原始文本分句是否是一条描述事件的语句,若是,则将所述描述事件的语句添加到备选事件索引库;
2)根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
3)对所述的相关事件文本进行综合分析,确定分析结果;
4)将所述分析结果生成可视化报告,输出至用户端。
2.根据权利要求1所述的一种基于大数据的事件聚合分析方法,其特征在于:所述步骤1)中判断原始文本分句是否是一条描述事件的语句包括:
对原始文本进行句级别的拆分,并制定“判断语句是否是一条描述事件的语句”规则,所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种,根据所述规则,判断分句是否是一条描述事件的语句;其中,
实体类型匹配:句子包含时间类型实体和人物类型命名实体,判断为描述事件语句;
分词词性匹配:对句子进行词性识别与句法依存识别,存在主谓搭配结构的,判断为描述事件语句;
特殊触发词匹配:句子包含特殊触发词,判断为描述事件语句。
3.根据权利要求1所述的一种基于大数据的事件聚合分析方法,其特征在于:所述步骤1)中备选事件索引库需要存储的内容包括:描述事件的语句的文字内容、原始文本来源信息、对语句中包含的日期要素标准化处理后的日期信息。
4.根据权利要求1所述的一种基于大数据的事件聚合分析方法,其特征在于:所述步骤2)中根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回。
5.根据权利要求1所述的一种基于大数据的事件聚合分析方法,其特征在于:所述步骤3)具体包括:
基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
基于事件相关文本的文字内容,提取出关键词及热点实体;
计算文本间的语义相似性,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
使用文本自动摘要算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要。
6.一种基于大数据的事件聚合分析系统,其特征在于,包括:
判断模块,用于对原始文本分句,判断分句是否是一条用于描述事件的语句;
索引模块,用于将所述描述事件的语句添加到备选事件索引库;
查询模块,用于根据事件时间范围和事件涉及关键字,从备选事件索引库中查询相匹配的相关事件文本;
分析模块,用于对所述的相关事件文本进行综合分析,确定分析结果;
可视化模块,将所述分析结果生成可视化报告,输出至用户端。
7.根据权利要求6所述的一种基于大数据的事件聚合分析系统,其特征在于:所述判断模块包括:
分句子模块,用于对原始文本进行句级别的拆分;
规则制定模块,制定“判断语句是否是一条描述事件的语句”规则,所述规则包括实体类型匹配、分词词性匹配、特殊触发词匹配中的一种或多种;
实体类型匹配:句子包含时间类型实体和人物类型命名实体,判断为描述事件语句;
分词词性匹配:对句子进行词性识别与句法依存识别,存在主谓搭配结构的,判断为描述事件语句;
特殊触发词匹配:句子包含特殊触发词,判断为描述事件语句;
规则生效模块,用于根据所述规则,判断分句是否是一条描述事件的语句。
8.根据权利要求6所述的一种基于大数据的事件聚合分析系统,其特征在于:所述索引模块,还用于:
存储描述事件的语句的文字内容;
存储原始文本来源信息;
存储对语句中包含的日期要素标准化处理后的日期信息。
9.根据权利要求6所述的一种基于大数据的事件聚合分析系统,其特征在于:所述的查询模块,还用于:
根据文本搜索匹配条件和事件时间范围,将符合条件的事件相关文本,从备选事件索引库中召回。
10.根据权利要求6所述的一种基于大数据的事件聚合分析系统,其特征在于:所述分析模块包括:
数量分析子模块,用于基于事件相关文本的数量信息,分别进行事件文本来源的分布统计及事件随时间的热度趋势变化统计;
关键字与关键命名实体提取子模块,用于基于事件相关文本的文字内容,提取出关键词及关键命名实体,命名实体包括人名、地名、组织、机构名;
聚类子模块 ,用于计算文本间的语义相似性,对全部事件相关文本进行聚类分析,得到不同文本簇,每个簇包含相似主题;
摘要子模块,用于使用文本自动摘要算法,对不同时间周期内的事件相关文本进行关键句分析,提取该时间周期内的事件描述摘要。
CN202111022141.XA 2021-09-01 2021-09-01 一种基于大数据的事件聚合分析方法和系统 Active CN113468321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111022141.XA CN113468321B (zh) 2021-09-01 2021-09-01 一种基于大数据的事件聚合分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111022141.XA CN113468321B (zh) 2021-09-01 2021-09-01 一种基于大数据的事件聚合分析方法和系统

Publications (2)

Publication Number Publication Date
CN113468321A true CN113468321A (zh) 2021-10-01
CN113468321B CN113468321B (zh) 2022-01-04

Family

ID=77867105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111022141.XA Active CN113468321B (zh) 2021-09-01 2021-09-01 一种基于大数据的事件聚合分析方法和系统

Country Status (1)

Country Link
CN (1) CN113468321B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
WO2019196209A1 (zh) * 2018-04-08 2019-10-17 平安科技(深圳)有限公司 事件信息分析方法、可读存储介质、终端设备及装置
CN110705288A (zh) * 2019-09-29 2020-01-17 武汉海昌信息技术有限公司 一种基于大数据的舆情分析系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
WO2019196209A1 (zh) * 2018-04-08 2019-10-17 平安科技(深圳)有限公司 事件信息分析方法、可读存储介质、终端设备及装置
CN110705288A (zh) * 2019-09-29 2020-01-17 武汉海昌信息技术有限公司 一种基于大数据的舆情分析系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879901A (zh) * 2023-02-22 2023-03-31 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台
CN115879901B (zh) * 2023-02-22 2023-07-28 陕西湘秦衡兴科技集团股份有限公司 一种智能人事自助服务平台

Also Published As

Publication number Publication date
CN113468321B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
US11106664B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110892399B (zh) 自动生成主题内容摘要的系统和方法
Maekawa et al. Balanced corpus of contemporary written Japanese
Weiss et al. Fundamentals of predictive text mining
US8595245B2 (en) Reference resolution for text enrichment and normalization in mining mixed data
US9588960B2 (en) Automatic extraction of named entities from texts
US7899871B1 (en) Methods and systems for e-mail topic classification
US6810146B2 (en) Method and system for segmenting and identifying events in images using spoken annotations
Plachouras et al. Interacting with financial data using natural language
US20170357625A1 (en) Event extraction from documents
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
US20200210491A1 (en) Computer-Implemented Method of Domain-Specific Full-Text Document Search
US9940354B2 (en) Providing answers to questions having both rankable and probabilistic components
CN113342923A (zh) 数据查询方法、装置、电子设备及可读存储介质
Betti et al. Expert concept-modeling ground truth construction for word embeddings evaluation in concept-focused domains
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
Cao et al. Extracting statistical mentions from textual claims to provide trusted content
CN113468321B (zh) 一种基于大数据的事件聚合分析方法和系统
Jutta et al. Linguistic variation in the Austrian Media Corpus. Dealing with the challenges of large amounts of data
Iacobelli et al. Finding new information via robust entity detection
Groza et al. Reference information extraction and processing using random conditional fields
Sariki et al. A book recommendation system based on named entities
Aksan et al. The Turkish National Corpus (TNC): comparing the architectures of v1 and v2
US11860914B1 (en) Natural language database generation and query system
Rexha et al. Social media monitoring for companies: A 4W summarisation approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant