CN114185868B - 中文热点事件库智能构建方法 - Google Patents
中文热点事件库智能构建方法 Download PDFInfo
- Publication number
- CN114185868B CN114185868B CN202111278165.1A CN202111278165A CN114185868B CN 114185868 B CN114185868 B CN 114185868B CN 202111278165 A CN202111278165 A CN 202111278165A CN 114185868 B CN114185868 B CN 114185868B
- Authority
- CN
- China
- Prior art keywords
- event
- sentences
- types
- sentence
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种中文热点事件库智能化构建方法,智能化水平高、数据可用性好。本发明通过下述技术方案实现:采用事件识别模块将输入的文本语料分割成句子集合,识别出其中的事件句,通过分类和聚类技术得到事件句类型;事件结构化模块基于BERT预训练模型的触发词识别技术识别句子中的触发词,然后通过多重二分类器抽取句子中的要素信息;主题类别判定模块通过分类和聚类两种方法得到当前事件句所属的主题类型;事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。
Description
技术领域
本发明涉及信息处理领域的热点事件分析技术,具体涉及事件库构建技术,尤其是智能化的中文热点事件库构建方法。
背景技术
科学技术的飞速发展,带来了信息传播方式的日新月异,特别是随着互联网技术的不断成熟,使得通过互联网传播信息不仅简单快速而且廉价方便。但随着网络信息量的急剧膨胀,用户如何从这些海量的、存储结构凌乱的信息中快速获取所关注的热点事件信息,也随之变得越来越困难。
国际和社会形势不断变化,各类事件相互作用,导致事件发生的诱因日趋复杂,越来越多的学者发现对特定主题下大量事件的持续监控,可以发现该类事件的发展规律,近年来,新闻和社交网络等开放信息平台高速发展,为人们提供了洞察事件的第一手资料,也使得事件影响随网络迅速传播,甚至影响事态发展。针对大量混杂数据中的事件信息,越来越多的学者希望实现这类特殊事件的自动化发现,获得大量精度高、机器可阅读的事件数据,并构建出各类结构化事件库。2014-2016年美国情报先进研究计划局连同多家高校完成了EMBERS事件系统,基于新闻、Twitter、Facebook、地图探测等十余种混杂的数据实现了反叛、冲突等7大类事件的在线监控,形成包括发生地点、事件类别、涉事人群等内容在内的精细事件库。在事件系统基础上,开展了涉事团体活动规律挖掘、事件起因发现等多项研究。通过构建事件库,可形成态势感知、危机预警、风险控制、应急决策等多累安全应用的分析基础。因此,事件库的构建技术已成为信息内容安全的重要部分。
不同于稳定存在的知识数据,事件数据记录了瞬时或短期的人类活动及相应影响,是对现实社会变化的原子性描述。大量事件数据被集成到事件库,实现了现实世界和人类活动的全面映射。
热点挖掘是舆情分析中十分重要的内容之一,热点刻画了目前我们所生活的社会发展状况。热点从类型上来说,包括热点实体以及热点事件两种,前者主要围绕着热点的实体展开,包括热点人物、热点电影、热点电视剧、热点经典等,描述的是人类对某种事物物体的关注程度。热点事件则在语义上较热点实体更为丰富,往往包括什么人做了什么事情,引起社会的强烈关注。后者的存现载体主要有热点微博,热点新闻等。作为信息抽取的一项新的研究课题,事件关系检测与传统的话题检测和事件抽取密切相关。传统的话题检测可以认为是粗粒度的事件关系检测任务,即属于同一话题下的事件具有关联性,不过这种关系是比较弱的。事件抽取是事件关系检测的基础,即针对非结构化的文本,需要通过事件抽取从含有事件信息的文本中抽取出事件内容,形成事件流。而事件关系判定需要对关联事件给出明确的语义关系或逻辑关系标签(如因果、时序、扩展、对比等关系标签)。目前多数事件库是通过人工标注的方式构建,费时费力,并且通常创建之后不再更新或更新周期很长,降低了基于事件库开展事件分析应用如跟踪、评估、预测等的时效性和准确性。目前事件库构建方法存在的智能化水平低、抽取要素不准确、无法实时更新、事件数据分布散乱等问题。少量通过机器自动化构建事件库的方法存在事件要素抽取不全、错误、主题不明确,整体来看可用性不强。GDELT事件库是开源的、自动化、定时更新的事件库,但主要以英文数据为主,不适合特定领域应用。从热点的任务角度上来说,热点挖掘包括热点的表示、热点的发现、热点的演化追踪共三个方面的内容。其中,概括性事件表示上,大多使用话题挖掘的方式,使用热点标签词或短语进行热点表示,还是停留在一个较为抽象的层级上。目前学界关于该热点的任务主要有TDT话题检测语追踪项目以及timeline和storyline的工作,其中如何自动挖掘和生成storyline是目前热点挖掘的重点,同时也是难点所在。如何来解决这个问题,主要有两种方式:一种是从定时抓取每日热点页面并记录到数据库,另一种是换一个方式,找具有历时热点的网站自己提取。第一种方式来源直接,但过去的数据缺失太多,第二种方式则获取较为间接,需要依靠算法进行提取,但覆盖面很广。
发明内容
本发明的发明目的是针对目前事件库构建方法存在的智能化水平低、抽取要素不准确、无法实时更新、事件数据分布散乱等问题,提供一种灵活性强、智能化水平高、数据可用性好的中文热点事件库构建方法。
本发明的上述目的可以通过以下措施来实现,一种中文热点事件库智能化构建方法。其特征在于,包括如下步骤:
采用事件识别模块将输入的篇章、句子文本语料分割成句子集合,通过事件检测技术识别出其中的事件句,并通过分类和聚类技术得到事件句类型,将事件句和事件类型送入事件结构化模块,事件结构化模块基于BERT预训练模型的触发词识别技术识别句子中的触发词,并将触发词与事件句再次作为BERT模型输入提取深度语义特征,通过多重二分类器抽取句子中的要素信息;将事件句、事件类型、事件要素同时送入主题类别判定模块,通过分类和聚类两种方法得到当前事件句所属的主题类型;事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用基于前沿人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为一条事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。
本发明具有如下的有益效果:
灵活性强。本发明采用事件识别模块将输入的篇章、句子文本语料分割成句子集合,通过事件检测技术识别出其中的事件句,并通过分类和聚类技术得到事件句类型,将事件句和事件类型送入事件结构化模块,基于BERT预训练模型的触发词识别技术识别句子中的触发词,并将触发词与事件句再次作为BERT模型输入提取深度语义特征,通过多重二分类器抽取句子中的要素信息;可以以在线或离线的方式灵活处理文本数据,发现热点事件数据并实现结构化入库,能够适应不同应用场景的需求,具有良好的普适性。
智能化水平高。本发明通过分类和聚类两种方法得到当前事件句所属的主题类型,事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用基于前沿人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为一条事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。这种以篇章或句子级语料为处理对象,采用BERT预训练语言模型等前沿人工智能技术作为事件检测、分类、要素抽取、聚类、融合,以自动化方式完成事件库构建,充分体现了技术先进性和智能化;同时事件库整个构建过程人工参与度低。
数据可用性好。本发明所提出的事件库构建方法对事件数据进行了良好的组织管理,一方面表现在按主题方向进行构建,可快速为用户提供关注主题方向的事件数据,避免了层层筛选数据的麻烦;另一方面表现在结构化事件数据入库之前进行了关联融合处理,去除了冗余信息。
附图说明
图1是本发明中文热点事件库智能构建方法流程框图;
图2是图1事件识别模块的热点事件识别流程框图;
图3是图1事件结构化模块的事件结构化流程框图;
图4是图1主题类别判定模块的主题类别判定流程框图;
图5是图1事件信息融合模块的事件信息融合流程框图;
具体实施方式
参阅图1。根据本发明,采用事件识别模块将输入的篇章、句子文本语料分割成句子集合,通过事件检测技术识别出其中的事件句,并通过分类和聚类技术得到事件句类型,将事件句和事件类型送入事件结构化模块,事件结构化模块基于BERT预训练模型的触发词识别技术识别句子中的触发词,并将触发词与事件句再次作为BERT模型输入提取深度语义特征,通过多重二分类器抽取句子中的要素信息;将事件句、事件类型、事件要素同时送入主题类别判定模块,通过分类和聚类两种方法得到当前事件句所属的主题类型;事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用基于前沿人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为一条事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。
参阅图2。事件识别模块包括:顺次串联的事件检测单元、子事件分类单元和子事件聚类单元。事件检测单元采用触发词库与深度神经网络结合的方法,从输入的篇章、句子级文本语料中识别出事件句,通过子事件分类单元所采用的神经网络模型对识别出来的事件句按照子事件类型库中的政治、经济、外交、安全、科技等类别自动分类打标,判断事件类型是否明确,是则存入事件句/事件类型库,否则通过子事件聚类单元的聚类技术得到新事件类型,结合子事件类型人工确认得到事件句的类型,并存入子事件类型库,辅助子事件分类单元完成下一次事件分类任务,明确类型的事件句存入事件句/事件类型库。
参阅图3。事件结构化模块包括:基于BERT模型的触发词识别单元和基于BERT模型的事件要素抽取单元。基于BERT模型的触发词识别单元以事件句/事件类型库中的事件句和事件类型作为输入,通过BERT模型提取事件句的深度语义特征后利用分类器识别出句子中的触发词;基于BERT模型的事件要素抽取单元以事件句和识别出来的触发词作为模型输入,识别出事件句中的实体信息,然后结合触发词信息,通过多重二分类器完成事件句中主体、客体、时间、地点等的提取。
参阅图4。主题类别判定模块包括:在主题事件类型库与初期主题事件库之间处理数据的主题事件分类单元和主题事件聚类单元。主题事件分类单元基于主题事件类型库对事件结构化模块的事件句、事件类型、触发词、事件要素结果,采用深度学习技术判断结构化事件句所属主题事件类型是否明确,是则将明确了所属主题的结构化事件句存入初期主题事件库;否则,将未知主题的结构化事件句通过主题事件聚类单元,结合主题事件类型人工确认,将明确新的主题类型存入主题事件类型库,辅助主题事件分类单元进行下一次主题事件分类,同时,这部分明确了主题类型的结构化事件句存入初期主题事件库。
参阅图5。事件信息融合模块包括:在初期主题事件库与中文热点事件库之间处理数据的事件合并单元和事件关联单元,事件合并单元以初期主题事件库作为输入,通过共指事件发现、指代消解、要素对齐等技术实现同类事件数据聚合、保留最有价值的事件要素信息、补充缺失要素内容,从而提高事件数据质量;事件关联单元对合并后的高质量结构化事件数据,通过关系发现技术挖掘事件之间的顺承关系、并列关系、因果关系等关联关系,提升事件数据的组织关联能力,最终按事件主题将结构化事件数据存入中文热点事件库。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (6)
1.一种中文热点事件库智能化构建方法,其特征在于,包括如下步骤:
采用事件识别模块将输入的篇章、句子文本语料分割成句子集合,通过事件检测技术识别出其中的事件句,并通过分类和聚类技术得到事件句类型,将事件句和事件类型送入事件结构化模块,事件结构化模块基于BERT预训练模型的触发词识别技术识别句子中的触发词,并将触发词与事件句再次作为BERT模型输入提取深度语义特征,通过多重二分类器抽取句子中的要素信息;将事件句、事件类型、事件要素同时送入主题类别判定模块,通过分类和聚类两种方法得到当前事件句所属的主题类型;事件信息融合模块以事件句、事件类型、事件要素、触发词、主题类型为处理对象,采用基于前沿人工智能技术的事件合并、事件关联技术,将指代同一个事件的多条事件数据合并为一条事件数据,智能化融合形成一个有序、高质量的结构化事件数据库。
2.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:事件识别模块包括:顺次串联的事件检测单元、子事件分类单元和子事件聚类单元,事件检测单元采用触发词库与深度神经网络结合的方法,从输入的篇章、句子级文本语料中识别出事件句,通过子事件分类单元所采用的神经网络模型对识别出来的事件句,按照子事件类型库中的政治、经济、外交、安全、科技的类别自动分类打标,判断事件类型是否明确,是则存入事件句/事件类型库,否则通过子事件聚类单元的聚类技术得到新事件类型,结合子事件类型人工确认得到事件句的类型,并存入子事件类型库,辅助子事件分类单元完成下一次事件分类任务,明确类型的事件句存入事件句/事件类型库。
3.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:事件结构化模块包括:基于BERT模型的触发词识别单元、事件要素抽取单元,触发词识别单元以事件句/事件类型库中的事件句和事件类型作为输入,通过BERT模型提取事件句的深度语义特征后,利用分类器识别出句子中的触发词;事件要素抽取单元以事件句和识别出来的触发词作为BERT模型输入,识别出事件句中的实体信息,然后结合触发词信息,通过多重二分类器完成事件句中主体、客体、时间、地点的提取。
4.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:主题类别判定模块包括:在主题事件类型库与初期主题事件库之间处理数据的主题事件分类单元和主题事件聚类单元,主题事件分类单元基于主题事件类型库对事件结构化模块的事件句、事件类型、触发词、事件要素结果,采用深度学习技术判断结构化事件句所属主题事件类型是否明确,是则将明确了所属主题的结构化事件句存入初期主题事件库;否则,将未知主题的结构化事件句通过主题事件聚类单元,结合主题事件类型人工确认,将明确新的主题类型存入主题事件类型库,辅助主题事件分类单元进行下一次主题事件分类,同时,这部分明确了主题类型的结构化事件句存入初期主题事件库。
5.如权利要求1所述的中文热点事件库智能化构建方法,其特征在于:事件信息融合模块包括:在初期主题事件库与中文热点事件库之间处理数据的事件合并单元和事件关联单元,事件合并单元以初期主题事件库作为输入,通过共指事件发现、指代消解、要素对齐技术实现同类事件数据聚合、保留最有价值的事件要素信息、补充缺失要素内容,从而提高事件数据质量。
6.如权利要求5所述的中文热点事件库智能化构建方法,其特征在于:事件关联单元对合并后的高质量结构化事件数据,通过关系发现技术挖掘事件之间的顺承关系、并列关系、因果关系关联关系,提升事件数据的组织关联能力,最终按事件主题将结构化事件数据存入中文热点事件库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278165.1A CN114185868B (zh) | 2021-10-30 | 2021-10-30 | 中文热点事件库智能构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278165.1A CN114185868B (zh) | 2021-10-30 | 2021-10-30 | 中文热点事件库智能构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114185868A CN114185868A (zh) | 2022-03-15 |
CN114185868B true CN114185868B (zh) | 2023-05-30 |
Family
ID=80540550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111278165.1A Active CN114185868B (zh) | 2021-10-30 | 2021-10-30 | 中文热点事件库智能构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114185868B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN112000792A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然灾害事件的抽取方法、装置、设备以及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140046861A1 (en) * | 2012-08-10 | 2014-02-13 | James E. Dodson | Method and System for Representing Collective and Individual Responses to a Shared Experience Event |
US11328125B2 (en) * | 2019-05-14 | 2022-05-10 | Korea University Research And Business Foundation | Method and server for text classification using multi-task learning |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
-
2021
- 2021-10-30 CN CN202111278165.1A patent/CN114185868B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN112000792A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然灾害事件的抽取方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
Yong Zhu等.Event extraction as multi-turn question answering .《Association for computational Linguistics》.2020,829-838. * |
胡伟.基于深度学习的事件关系抽取研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,I138-761. * |
Also Published As
Publication number | Publication date |
---|---|
CN114185868A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
Inzalkar et al. | A survey on text mining-techniques and application | |
CN112395539B (zh) | 一种基于自然语言处理的舆情风险监测方法及系统 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN111914087A (zh) | 一种舆情分析方法 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN118093979B (zh) | 一种基于大数据的互联网新闻分析系统及方法 | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
Sandhiya et al. | A review of topic modeling and its application | |
KR101593371B1 (ko) | 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템 | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
Purwandari et al. | Automatic Smart Crawling on Twitter for Weather Information in Indonesia | |
Suhasini et al. | A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data | |
CN114185868B (zh) | 中文热点事件库智能构建方法 | |
KR20200065348A (ko) | 신뢰도 분포 기반 논지 및 뒷받침 증거자료의 군집화를 통한 신뢰 가능성 판단 가속화 방법 및 시스템 | |
Ezzat et al. | Topicanalyzer: A system for unsupervised multi-label arabic topic categorization | |
Thanos et al. | Combined deep learning and traditional NLP approaches for fire burst detection based on twitter posts | |
Khandokar et al. | Event detection and knowledge mining from unlabelled bengali news articles | |
Segura-Tinoco et al. | An Argument-based Search Framework: Implementation on a Spanish Corpus in the E-Participation Domain. | |
Hasan et al. | Classifying Bengali Newspaper Headlines with Advanced Deep Learning Models: LSTM, Bi-LSTM, and Bi-GRU Approaches | |
Wang et al. | Natural language processing systems and Big Data analytics | |
Kovilpatti et al. | Analyzing social media data for understanding students learning experiences and predicting their psychological pressure | |
Verma et al. | PREDICTING SENTIMENT FROM MOVIE REVIEWS USINGLEXICONBASED MODEL | |
Zydziunaite | Automatic content analysis of social media short texts: Scoping review of methods and tools | |
Tian | Construction of Computer English Corpus Assisted by Internet of Things Information Perception and Interaction Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |