CN110941692A - 互联网政治外交类新闻事件抽取方法 - Google Patents

互联网政治外交类新闻事件抽取方法 Download PDF

Info

Publication number
CN110941692A
CN110941692A CN201910937986.8A CN201910937986A CN110941692A CN 110941692 A CN110941692 A CN 110941692A CN 201910937986 A CN201910937986 A CN 201910937986A CN 110941692 A CN110941692 A CN 110941692A
Authority
CN
China
Prior art keywords
event
trigger
words
news
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910937986.8A
Other languages
English (en)
Other versions
CN110941692B (zh
Inventor
崔莹
代翔
孙涛
潘磊
丁洪丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN201910937986.8A priority Critical patent/CN110941692B/zh
Publication of CN110941692A publication Critical patent/CN110941692A/zh
Application granted granted Critical
Publication of CN110941692B publication Critical patent/CN110941692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。

Description

互联网政治外交类新闻事件抽取方法
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种互联网政治外交类新闻事件抽取方法。
背景技术
随着科技水平日新月异的更新发展,各类新闻数据来源手段层出不穷,导致多源、多品类、异构新闻数据量突飞猛涨。新闻数据作为开源情报重要数据来源具有实时性高、海量等特点。如何从大量非结构化新闻数据中找到想要的关注目标信息,如何在大量非结构化新闻数据中对关注目标进行深层次挖掘、分析、预测等,是各国面对海量新闻数据时进行数据态势感知、风险预警等重点关注和亟待解决的问题。
非结构化文本类新闻数据进行结构化转换是新闻数据分析的基础,目前,针对非结构化文本类新闻数据进行结构化信息提取主要通过:命名实体提取、实体关系提取,事件提取等,其中,命名实体提取、实体关系提取的内容多为初级信息;事件抽取是指从文档中识别出某个事件发生的时间、地点、事件的参与者等信息,并以结构化的形式呈现出来,形成模板形式的事件场景描述。事件抽取主要把人们感兴趣的,用自然语言表达的事件以结构化的形式呈现出来。真正要做到信息关联、事件关联分析、预测挖掘等,需要进行更高一层次的信息提取,如事件抽取、主题抽取。
事件抽取是信息抽取领域一个重要的研究方向。目前事件抽取的研究主要有两类方法:基于模式匹配的方法和机器学习的方法。基于模式匹配的事件抽取是指通过定义好的模式来识别某一类事件和抽取事件相关的元素信息。模式匹配的方法准确率较高(如果模式提取的非常准确),且接近人的思维方式,知识表示直观、自然,便于推理。但是这种方法往往依赖于具体语言、具体领域及文本格式,可移植性差,需要富有经验的语言学家才能完成。和基于模式匹配的方法相比,基于机器学习方法的健壮性和灵活性较好,比较客观,不需要太多的人工干预和领域知识,召回率较高,但由于语料库规模的影响,数据稀疏问题比较严重,准确率较模式匹配的方法低,有时搜索空间很大还会导致巨大的空间开销,效率不高。针对大量混杂数据中的事件信息,越来越多的学者希望实现特殊事件的自动化发现,获得大量精度高、机器可阅读的事件数据,构建出各类结构化事件库。
正是由于机器学习在政外领域进行抽取时需要大规模的标注语料,同时存在识别率低的问题,本发明拟采用基于模式匹配的方法对政外领域新闻数据进行事件抽取。
类似于对知识进行总结然后形成知识库一样,对整个系统起支撑作用。一般来说,基于模式匹配方法的事件抽取是一种规则,模式定义了事件信息抽取的规范。模式的获取可以通过手工或者自动的方式来设定。通过定义模式,形成最终的模式库。基于模式匹配的事件信息抽取系统核心模块是模式获取和事件信息抽取。在基于模式匹配方法事件抽取过程中,有两个核心关键环节,一是事件触发词表的构建,触发词表构建的完整性和准确性,对事件的识别起到决定性的作用,因此如何完整的构建触发词词表至关重要。二是事件论元角色内容的填充,一句话中针对同一事件要素类型可能会提取到多个事件要素,如何选取合适的要素进行事件论元内容的填充同样对事件提取最终结果的准确性会产生深远的影响。
《互联网新闻信息服务管理规定》中关于时政类新闻信息是包括有关政治、经济、军事、外交等社会公共事务的报道、评论,以及有关社会突发事件的报道、评论。时政新闻是关于国家政治生活中新近或正在发生的事实的报道。报道范围:主要表现为政党、社会集团、社会势力在处理国家生活和国际关系方面的方针、政策和活动。时政类新闻信息在我国新闻传播领域占据着主流的位置,进入互联网时代,在网络传播环境下,传统时政类新闻信息生产面临挑战。时政新闻作为一种硬新闻,是新闻报道中最为重要方向之一,时政新闻承担着国家意识形态、政策宣传、经济动态、政治活动等相关信息的传播,它的重要性不言自明。然而传统媒体对时政新闻的报道出现了很多问题,给人形成一种呆板的印象,传统媒体时政新闻报道呈现日渐式微的状态。进入网络时代,在互联网传播语境下,互动传播、网络文化等对传统时政新闻生产形成挑战。而网络时政新闻,是指在网络上生产并传播的关于重大事件的报道。在新的传播环境下,网络时政新闻以其强大的传播力,在政治活动、政策宣传、经济动态等方面扮演着越来越重要的作用。然而目前的网络时政新闻也出现了一些问题,时政新闻并没有很好地与网络结合起来,时政新闻的生产模式仍然是传统思维,很多网络时政新闻只是把传统媒体时政新闻的生产方式照搬至网络平台,出现“换汤不换药”的现象。在网络环境下,随着新闻社会化和网络化的发展,时政类新闻信息的传播受到新媒体的冲击,主流媒体生产的时政新闻由于其严肃性和硬新闻的风格在网络上显得有些不适应,传统的时政新闻在传播内容、传播方式以及传受关系等方面落后网络媒体的发展。时政类新闻信息作为一种传递国家、社会现实状况的窗口,受到受众的极大关注,但时政类新新闻信息往往在互动性方面表现的较差,在网络环境下,受众也想参与进时政类新闻信息生产当中。过去传统时政新闻是一种官方话语,是一种封闭式话语,封闭式话语就会造成束缚,而进入移动互联网时代,互联网本身就是具有开放精神的,有人说开放性是互联网的DNA。进入到网络时代,传统媒体的封闭式报道话语照搬至网络,“换汤不换药”。而网络是具有开放精神的,如果不能让受众参与进去,不能得到精神上的交流,那么时政新闻就会在信息的洪流中为人所忽略,它的价值就发挥不出来。网络新闻的开放性表现在开放的传播氛围和全球性的话语体系,开放的传播氛围不会有那么多的限制,在不触碰法律的底线情况下,新闻内容能够实现多元化和多样性。网民在进行政治参与过程中,也出现很多问题,诸如情绪化的表达、非理性的讨论等。网络时政类新闻信息承担国家政治等重大活动与事件的报道,网络环境下,舆论空间更加复杂多变、网络传播主体多样,各种信息不管真实的还是虚假的都呈现在网上,由于网民对国家社会公共事务的讨论欲望更加强烈,网络时政类新闻信息应该对网民加强舆论引导,培育网民良好的政治素养。而对网络时政类新闻信息来说,应该增强与受众的互动,提供客观真实全面的信息,构建一个富有建设性的言论空间。作为一个成熟的网络资讯平台,及时即时发布信息,已经不能满足网民的需求,在信息获取如此便利的当下,如果只是单纯复制其他媒体的新闻信息,而没有原创性新闻,最终会因没有自己的特色而被淹没在茫茫应用中。在内容上,网络媒体将娱乐、信息、咨询和服务等功能作为重点,淡化对政治领域的国内外事务的关注。即使涉及了相关内容,也大多是从传统媒体摘抄拼贴而成的动态新闻。千篇一律,没有新颖性和独创性,缺乏深度的背景性;在形式上,很少利用网络传播的特殊优势,制作出适合网络信息传播规律的信息,特别是缺乏将视频与音频有效整合的多媒体动态信息,且服务功能单调,难以发挥网络新闻与受众的即时交互功能。可以说,比起传统媒体来,中国的网络媒体有的只是低质量的海量文字而非功能卓越的海量信息,这无疑会严重制约它对全球受众的深层影响力。而其中作为政府的网上“喉舌”和网络外交重要平台的官方网络媒体,同商业网站相比,其结构和设计、服务功能、创收能力和品牌知名度,都有较大的差距。网络技术和信息资源方面的劣势,直接制约了中国通过网络外交提升软权力。其次,中国的传统文化和主流政治文化建设受到国内外网络环境的双重制约,使得网络外交在为国家的软权力提升提供文化价值观和身份认同支持方面,还面临不少困难。利用信息霸权全面向中国宣传自己的文化价值观念和思想意识形态,是西方对华网络外交的重要内容,其目的就是让中国民众的世界观、人生观与价值观消融在西方文化的汪洋大海中,失去对中华传统文化的身份认同和中国主流政治文化的价值认同。
互联网法规要求严肃性,避免过度低级趣味。网站栏目需求近期热点话题,网络新闻稿件选择程序判断稿件真实性,分析稿件新闻价值,时效性、重要性、接近性、显著性、趣味性等。评价稿件社会效果,确认版权,确认是否符合法律规范,确认是否有宗教、民族禁忌。如何判断稿件真实性,内容分析、信源分析、作者分析、时间分析,核对多个新闻来源交叉比对,核对权威性资料,是非常繁琐的工作。
政治外交类新闻事件触发词是事件描述中的重要组成要素,直接引发事件的产生,是决定事件类别的重要特征。而事件触发词具有领域特色,事件触发词的提取在进行领域事件抽取过程中是非常重要的。现有技术基于深度神经网络的端到端事件抽取模型抽取事件触发词,触发词表的构建主要通过计算词频、选取相关动词性关键词作为触发词,虽然深度学习可以大幅减少人工参与的特征工程去“拟合”训练数据,但这也不是说完全不需要人去参与特征的选取,尤其是数据简直是海量的政治外交类新闻事件,通过专家手工构建触发词表工作量非常大,而且非常繁琐,除非能够清楚哪些数据具有潜在价值、如何做适当的预处理和如何转化并达成哪些目标,否则深度学习在政治外交类新闻领域是无法应用的。当然如果设计得当,增加神经网络的深度可以对更复杂的模式进行映射,因此可对政治外交类新闻数据的训练产生更好效果。
发明内容
本发明针对政外领域事件存在的不足之处,提供一种能够提高事件识别准确率的互联网政治外交类新闻事件抽取方法,
本发明上述目的可以通过以下介绍方案予以实现,一种互联网政治外交类新闻事件抽取方法,其特征在于,包括如下步骤:
针对互联网政治外交类新闻事件,采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板,结合文本依存句法,分析、识别和抽取政外领域事件元素。文本预处理:按逗号、句号切分句子,对单篇文档进行分词、词性标注,完成单文本预处理理操作;文本预处理和事件触发词表扩展:根据触发词表,判断句中是否包含触发词或与触发词相似的词,计算句子中相似词、动词和触发词的相似度,并基于义原相似性计算并扩展类别事件触发词;事件句识别:筛选触发词相似度,设定满足相似度的阈值,将满足相似度的阈值的句子作为候选事件句,同时为事件句指定事件类别。根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素,即事件元素的识别,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;根据触发词,依存句法、上下文信息,筛选得到满足类别模板的候选事件元素;完成事件元素识别后,针对非结构化文本类新闻数据进行结构化,按事件模板生成事件的结构化描述文件,构建出政外领域事件库。
本发明相比于现有技术的有益效果是:
事件识别准确率高。本发明针对互联网政治外交类新闻事件,采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板,结合文本依存句法,分析、识别和抽取政外领域事件元素进行文本预处理,并在传统触发词构建基础上,采取基于义原相似性计算的方法,(加入知网义原相关说明),对触发词进行扩展,能够提升触发词表的完整性,提升事件识别准确率和召回率。通过义原描述式相似性计算,扩展事件触发词表,为精准识别事件类型奠定基础,使得事件要素识别准确、更加完整。
事件类型识别准确率高。本发明根据触发词表,判断句中是否包含触发词或与触发词相似的词,计算句子中相似词、动词和触发词的相似度,并基于义原相似性计算并扩展类别事件触发词;筛选触发词相似度,将满足相似度的阈值的句子作为候选事件句,同时为事件句指定事件类别;根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素,提取事件句中的实体要素;基于模式的指导,结合文本依存句法分析实现对于政外领域事件元素的识别和抽取,抽取结果准确率明显优于基于深度神经网络的端到端事件抽取模型抽取结果,并对其它特定领域事件抽取具有可借鉴和实施性。
事件结构化描述。本发明针对政外领域事件,根据触发词,依存句法、上下文信息,筛选得到满足类别模板的候选事件元素;完成事件元素识别后,针对非结构化文本类新闻数据进行结构化,按事件模板生成事件的结构化描述文件。利用构建了八种元事件类别及对应的事件触发词表和事件模板,能够用于实际工程中,针对非结构化文本类新闻数据进行结构化,达到对事件的结构化描述,为政外领域事件库的构建提供了很好的基础支撑。可以针对政外领域事件构建八种元事件类别及对应的事件触发词表和事件模板。并以不同来源相同领域数据进行测试,实验结果较传统基于触发词的事件的召回率和F值均有提升,较基于神经网络的端到端事件抽取模型的抽取准确率有显著提升。图1是本发明互联网政治外交类新闻事件抽取处理流程示意图。
附图说明
图1是本发明互联网政治外交类新闻事件抽取的流程图
图2是图1事件依存句法分析示意图。
图3是图1事件论元角色内容填充流程示意图。
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
具体实施方式
如图1所示,根据本发明,针对互联网政治外交类新闻事件,采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板,结合文本依存句法,分析、识别和抽取政外领域事件元素。文本预处理:按逗号、句号切分句子,对单篇文档进行分词、词性标注,完成单文本预处理理操作;文本预处理和事件触发词表扩展:根据触发词表,判断句中是否包含触发词或与触发词相似的词,计算句子中相似词、动词和触发词的相似度,并基于义原相似性计算并扩展类别事件触发词;事件句识别:筛选触发词相似度,设定满足相似度的阈值,将满足相似度的阈值的句子作为候选事件句,同时为事件句指定事件类别。根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素,即事件元素的识别,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;根据触发词,依存句法、上下文信息,筛选得到满足类别模板的候选事件元素;完成事件元素识别后,针对非结构化文本类新闻数据进行结构化,按事件模板生成事件的结构化描述。
事件句识别:当一句话中包含多个触发词时,认为该句属于多事件句,对该事件句赋予多个事件类别。筛选触发词相似度满足设定阈值的句子作为事件句,同时为事件句指定事件类别。因为绝大多数事件触发词的词性是动词,因此事件句的识别是通过对句子进行分词处理,将所有词性为动词的词与触发词表进行比对,当该句子中包含有触发词表中的某触发词时,将该句判定为事件句,同时根据触发词指定该事件句的事件类别。
事件元素识别:提取事件句中的实体要素,根据事件类别模板内的论元角色约束。论元角色内容的填充结果准确性主要依赖于分词结果和依存句法分析结果的准确性。论元角色内容的填充主要是对事件句中的事件元素进行识别,再按照事件模板将事件元素填充到对应的论元角色中。由于政外领域语料触发词具有专业性,因此在触发词表构建完成时,为提高事件句识别准确度,同步对分词算法中用户自定义词典进行了手动更新。
事件触发词表扩展:
参阅图2。通过对特定范围内的语料进行人工分析结合义原相似性计算,扩展并构建触发词表。图2 中英文缩略词的含义分别为:ATT表示定中关系,VOB表示动宾关系,SBV表示主谓关系,HED表示核心关系,ADV表示状中结构,COO表示并列关系,LAD表示左附加关系,WP表示标点。首先根据新闻标题或正文内容利用句子的依存句法关系绘制事件依存句法分析图,将是否包含触发词作为判断是否是候选事件的标准,判断句子中是否有触发词,有则归类到相关候选类别中。判断过程中考虑到触发词无法全面覆盖所有新闻标题关键词,利用知网词语相似度计算标题文本中的词语与类别触发词的相似度。实词的每一个概念是由一组义原描述式来定义的,这些义原描述式可以分为四部分:第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式。第一独立义原之间的相似度通过义原在知网中义原,根据上下位关系所形成的树中的距离来计算,公式为
Figure RE-GDA0002297632140000051
其中,p1表示知网中义原,p2表示其他独立义原,d是p1、p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数。
计算第一独立义原描述式、其他独立义原描述式、关系义原描述式、符号义原描述式四部分相似度的加权平均值作为词语的相似度,采用如下计算公式:
Figure RE-GDA0002297632140000052
式中,S1表示触发词、S2表示不同义原描述式,βi表示权重系数,i表示第几种义原描述式。
在文本中的词语与触发词的相似度计算过程中,如果文本中的词语和和多个类别的触发词的相似度都超过阈值,那么选择相似度最高的作为候选事件类别。
本实施例中的分词方法分别采用了HanLP分词算法,通过对句子做依存句法分析,得到句子的依存句法关系,利用句子的依存句法关系作为指导,如图2,对抽取的实体元素进行论元角色的填充,论元角色内容填充流程,如图3所示。
参阅图3。事件论元角色内容填充过程中,综合考虑上下文语义信息,结合句法分析、指代消解及触发词词性判断等方法,进行事件论元角色内容的填充。
首先在句法分析树中找到触发词在句中的位置,判断句中触发词个数是否大于1,如果触发词个数大于1,则通过触发词表找到并列关系的词,分别找到与每个触发词满足动宾关系的宾语词;如果触发词个数小于1,则判断是否存在与触发词满足主谓关系的主语词,满足主谓关系,则将该词保存为事件模板中的施事者,如果不满足,则在句中分词结果中选择词性为nr的词作为事件模板中的施事者;然后进行宾语识别,判断是否是特殊事件触发词,如“:”、特殊触发词,则按特殊事件给出宾语;如果不是特殊触发词,则找到句法分析书中与触发词满足动宾关系的宾语词;在句法分析树中对该宾语循环向父节点方向进行判断,判断宾语是否有定中关系的定语词,通过触发词找到并列关系的词,并分别找到与每个触发词满足动宾关系的宾语词,如果不存在,则将该宾语保存为事件模板中的受事者;如果存在,则将定语与该定语拼接,如果此定中关系的父节点仍然是定中关系,则继续对该宾语进行拼接,按元事件模板填充论元角色内容。
事件描述生成:根据事件模板生成事件描述,
在可选的实施例中,针对政外领域事件进行分析,建立如下表1所述的八种元事件类别及对应事件触发词和事件模板,具体见表1、表2。
表1元事件类别及对应事件触发词
Figure RE-GDA0002297632140000061
Figure RE-GDA0002297632140000071
表2元事件模板
事件模板 语义约束 必要元事件标记
触发词:V {举行、召开、出席、主持、参谒、}{v} 1
参与人:Arg-Person {PersonOrg Gpe},{Nt,Nn,Nr} 1
时间:Arg-Tme {Time},{t} 0
活动地点:Arg-Place {Loc},{Ns} 0
活动名称:Arg-Activity {Content} 1
综上所述,本发明以政外领域新闻数据为研究基础,针对基于传统模式匹配事件抽取存在的提取困难、召回率和准确率低,基于深度学习方法在特定领域事件抽取中抽取准确率不高等问题,提出基于相似义原和依存句法的政外领域事件抽取方法。
本方法通过义原描述式相似性计算,扩展事件触发词表,为精准识别事件类型奠定基础;进一步基于模式的指导,结合文本依存句法分析实现对于政外领域事件元素的识别和抽取,从而达到对事件的结构化描述。抽取结果准确率明显优于基于深度神经网络的端到端事件抽取模型抽取结果,并对其他特定领域事件抽取具有可借鉴和实施性。本方法首先对新闻句子级别元事件抽取问题进行理论探讨和实践研究,并针对基于相似义原和依存句法的政外领域信息事件抽取方法进行详细介绍。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种互联网政治外交类新闻事件抽取方法,其特征在于,包括如下步骤:
针对互联网政治外交类新闻事件,采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素;文本预处理:按逗号、句号切分句子,对单篇文档进行分词、词性标注,完成单文本预处理理操作;文本预处理和事件触发词表扩展:根据触发词表,判断句中是否包含触发词或与触发词相似的词,计算句子中相似词、动词和触发词的相似度,并基于义原相似性计算并扩展类别事件触发词;事件句识别:筛选触发词相似度,设定满足相似度的阈值,将满足相似度的阈值的句子作为候选事件句,同时为事件句指定事件类别;根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素,即事件元素的识别,提取事件句中的实体要素,再按照事件模板将事件元素填充到对应的论元角色中;根据触发词,依存句法、上下文信息,筛选得到满足类别模板的候选事件元素;完成事件元素识别后,针对非结构化文本类新闻数据进行结构化,按事件模板生成事件的结构化描述文件,构建出政外领域事件库。
2.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:当一句话中包含多个触发词时,则该多个触发词句属于多事件句,对该事件句赋予多个事件类别。
3.如权利要求2所述的互联网政治外交类新闻事件抽取方法,其特征在于:筛选触发词相似度满足设定阈值的句子作为事件句,同时为事件句指定事件类别。
4.如权利要求3所述的互联网政治外交类新闻事件抽取方法,其特征在于:事件句识别通过对句子进行分词处理,将所有词性为动词的词与触发词表进行比对,当句子中包含有触发词表中的某触发词时,将该多个触发词句判定为事件句,同时根据触发词指定该事件句的事件类别。
5.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:在事件元素识别中,提取事件句中的实体要素,根据事件类别模板内的论元角色约束,对事件句中的事件元素进行识别,再按照事件模板将事件元素填充到对应的论元角色中。
6.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:根据新闻标题或正文内容利用句子的依存句法关系绘制事件依存句法分析图,将是否包含触发词作为判断是否是候选事件的标准,判断句子中是否有触发词,有则归类到相关候选类别中。
7.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:利用知网词语相似度计算标题文本中的词语与类别触发词的相似度,其中,实词的每一个概念是由一组义原描述式来定义的,这些义原描述式分为第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式,四部分,第一独立义原之间的相似度通过义原在知网中义原,根据上下位关系所形成的树中的距离来计算,公式为
Figure FDA0002219814500000021
其中,p1表示知网中义原,p2表示其它独立义原,d是p1、p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数。
8.如权利要求7所述的互联网政治外交类新闻事件抽取方法,其特征在于:计算第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式的四部分相似度的加权平均值作为词语的相似度,采用如下计算公式:
Figure FDA0002219814500000022
式中,S1表示触发词、S2表示不同义原描述式,βi表示权重系数,i表示第几种义原描述式。
9.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:在文本中的词语与触发词的相似度计算过程中,若文本中的词语和和多个类别的触发词的相似度都超过阈值,则选择相似度最高的作为候选事件类别。
10.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:在句法分析树中找到触发词在句中的位置,判断句中触发词个数是否大于1,若触发词个数大于1,则通过触发词表找到并列关系的词,分别找到与每个触发词满足动宾关系的宾语词;若触发词个数小于1,则判断是否存在与触发词满足主谓关系的主语词,满足主谓关系,则将该词保存为事件模板中的施事者,如果不满足,则在句中分词结果中选择词性为nr的词作为事件模板中的施事者;然后进行宾语识别,判断是否是特殊事件触发词,特殊触发词则按特殊事件给出宾语;若不是特殊触发词,则找到句法分析书中与触发词满足动宾关系的宾语词;在句法分析树中对该宾语循环向父节点方向进行判断,判断宾语是否有定中关系的定语词,通过触发词找到并列关系的词,并分别找到与每个触发词满足动宾关系的宾语词,如果不存在,则将该宾语保存为事件模板中的受事者;如果存在,则将定语与该定语拼接,如果此定中关系的父节点仍然是定中关系,则继续对该宾语进行拼接,按元事件模板填充论元角色内容。
CN201910937986.8A 2019-09-28 2019-09-28 互联网政治外交类新闻事件抽取方法 Active CN110941692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910937986.8A CN110941692B (zh) 2019-09-28 2019-09-28 互联网政治外交类新闻事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910937986.8A CN110941692B (zh) 2019-09-28 2019-09-28 互联网政治外交类新闻事件抽取方法

Publications (2)

Publication Number Publication Date
CN110941692A true CN110941692A (zh) 2020-03-31
CN110941692B CN110941692B (zh) 2022-07-29

Family

ID=69905788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910937986.8A Active CN110941692B (zh) 2019-09-28 2019-09-28 互联网政治外交类新闻事件抽取方法

Country Status (1)

Country Link
CN (1) CN110941692B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111950199A (zh) * 2020-08-11 2020-11-17 杭州叙简科技股份有限公司 一种基于地震新闻事件的地震数据结构化自动方法
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112699677A (zh) * 2020-12-31 2021-04-23 竹间智能科技(上海)有限公司 事件提取方法及装置、电子设备、存储介质
CN112883733A (zh) * 2020-12-09 2021-06-01 成都中科大旗软件股份有限公司 基于文本实体提取快速构建事件关系的分析方法
CN113657090A (zh) * 2021-08-23 2021-11-16 中国人民解放军32801部队 一种军事新闻长文本层次化事件抽取方法
CN113821605A (zh) * 2021-10-12 2021-12-21 广州汇智通信技术有限公司 一种事件抽取方法
CN113901170A (zh) * 2021-12-07 2022-01-07 北京道达天际科技有限公司 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN114185868A (zh) * 2021-10-30 2022-03-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 中文热点事件库智能构建方法
CN115422948A (zh) * 2022-11-04 2022-12-02 文灵科技(北京)有限公司 一种基于语义分析的事件层次网络识别系统及方法
WO2023023379A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation from natural-language text documents
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN113821605B (zh) * 2021-10-12 2024-05-14 广州汇智通信技术有限公司 一种事件抽取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
US20180260474A1 (en) * 2017-03-13 2018-09-13 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
CN110162771A (zh) * 2018-11-22 2019-08-23 腾讯科技(深圳)有限公司 事件触发词的识别方法、装置、电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
US20180260474A1 (en) * 2017-03-13 2018-09-13 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
CN110162771A (zh) * 2018-11-22 2019-08-23 腾讯科技(深圳)有限公司 事件触发词的识别方法、装置、电子设备

Non-Patent Citations (15)

* Cited by examiner, † Cited by third party
Title
HALIL KILICOGLU 等: "EFFECTIVE BIO-EVENT EXTRACTION USING TRIGGER WORDS AND SYNTACTIC DEPENDENCIES", 《COMPUTATIONAL INTELLIGENCE》 *
HALIL KILICOGLU 等: "Syntactic Dependency Based Heuristics for Biological Event Extraction", 《PROCEEDINGS OF THE WORKSHOP ON BIONLP: SHARED TASK》 *
乔磊: "面向特定人群的网络信息事件提取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
刘珊珊: "生物医学事件抽取中触发词识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
崔莹: "基于相似义原和依存句法的政外领域事件抽取方法", 《计算机工程与科学》 *
张璐: "面向中文文本的事件提取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
杨建林 等: "公共卫生类突发事件的抽取研究", 《情报理论与实践》 *
王健 等: "基于深层句法分析的生物事件触发词抽取", 《计算机工程》 *
王雍凯 等: "基于图的新闻事件主题句抽取方法", 《南京理工大学学报》 *
裴东辉: "中文新闻事件抽取方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
轩小星 等: "中文事件触发词的自动抽取研究", 《计算机与数字工程》 *
郭庆: "中文事件抽取技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
项威 等: "中文事件抽取研究综述", 《计算机技术与发展》 *
高李政 等: "元事件抽取研究综述", 《计算机科学》 *
高源: "中文事件抽取关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111967268A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN111950199A (zh) * 2020-08-11 2020-11-17 杭州叙简科技股份有限公司 一种基于地震新闻事件的地震数据结构化自动方法
CN112199511B (zh) * 2020-09-28 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
CN112883733A (zh) * 2020-12-09 2021-06-01 成都中科大旗软件股份有限公司 基于文本实体提取快速构建事件关系的分析方法
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112528625B (zh) * 2020-12-11 2024-02-23 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112699677A (zh) * 2020-12-31 2021-04-23 竹间智能科技(上海)有限公司 事件提取方法及装置、电子设备、存储介质
CN112699677B (zh) * 2020-12-31 2023-05-02 竹间智能科技(上海)有限公司 事件提取方法及装置、电子设备、存储介质
WO2023023379A1 (en) * 2021-08-19 2023-02-23 Digital Asset Capital, Inc. Semantic map generation from natural-language text documents
CN113657090A (zh) * 2021-08-23 2021-11-16 中国人民解放军32801部队 一种军事新闻长文本层次化事件抽取方法
CN113821605A (zh) * 2021-10-12 2021-12-21 广州汇智通信技术有限公司 一种事件抽取方法
CN113821605B (zh) * 2021-10-12 2024-05-14 广州汇智通信技术有限公司 一种事件抽取方法
CN114185868A (zh) * 2021-10-30 2022-03-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 中文热点事件库智能构建方法
CN114185868B (zh) * 2021-10-30 2023-05-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 中文热点事件库智能构建方法
CN113901170A (zh) * 2021-12-07 2022-01-07 北京道达天际科技有限公司 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN115422948A (zh) * 2022-11-04 2022-12-02 文灵科技(北京)有限公司 一种基于语义分析的事件层次网络识别系统及方法
CN117131944A (zh) * 2023-10-24 2023-11-28 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统
CN117131944B (zh) * 2023-10-24 2024-01-12 中国电子科技集团公司第十研究所 面向多领域的交互式危机事件动态预警方法及系统

Also Published As

Publication number Publication date
CN110941692B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN110941692B (zh) 互联网政治外交类新闻事件抽取方法
CN106484767B (zh) 一种跨媒体的事件抽取方法
WO2018000272A1 (zh) 一种语料生成装置和方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN106919689A (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Gao et al. Personalized recommendation method for English teaching resources based on artificial intelligence technology
Yan Chinese internet buzzwords: Research on network languages in internet group communication
Chen et al. Sentiment analysis of animated film reviews using intelligent machine learning
Zhai Design of Oral English Training System Based on Big Data Content Recommendation Algorithm
Zong et al. Research on alignment in the construction of parallel corpus
Hou et al. Integration and Optimization of Multimedia Network-Assisted English Teaching Resources Based on Association Rule Algorithm
KR20210064620A (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Brown Translating prefigurative politics: social networks and rhetorical strategies in the alter-globalisation movement
Sun Online algorithm design of english translation of film and television works under the background of media cultural information
Chen A Metadata-Based Approach to the Integration of Educational Resources in Ethnic Traditional Physical Education
CN102073647A (zh) 一种面向e-Science环境的多领域Web文本特征抽取系统及方法
Ren et al. Sentiment analysis of Internet performance data
Cotter et al. Discourse approaches
Abascal-Mena et al. Semi-automatic generation of semantic dendrograms for the identification of themes in Twitter events
Zhu Research on Cross-media Semantic Retrieval Methods of Information Resources Based on Deep Learning
Zhan et al. Research on the Rules of Short Video Online Reviews in Mainstream Media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant