CN113033201B - 一种地震新闻信息抽取方法及其系统 - Google Patents

一种地震新闻信息抽取方法及其系统 Download PDF

Info

Publication number
CN113033201B
CN113033201B CN202011231567.1A CN202011231567A CN113033201B CN 113033201 B CN113033201 B CN 113033201B CN 202011231567 A CN202011231567 A CN 202011231567A CN 113033201 B CN113033201 B CN 113033201B
Authority
CN
China
Prior art keywords
news
entity
array
text
original sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011231567.1A
Other languages
English (en)
Other versions
CN113033201A (zh
Inventor
郭彦男
刘方然
徐常亮
贺大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Media Center Of Xinhua News Agency
Xinhua Zhiyun Technology Co ltd
Original Assignee
New Media Center Of Xinhua News Agency
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Media Center Of Xinhua News Agency, Xinhua Zhiyun Technology Co ltd filed Critical New Media Center Of Xinhua News Agency
Priority to CN202011231567.1A priority Critical patent/CN113033201B/zh
Publication of CN113033201A publication Critical patent/CN113033201A/zh
Application granted granted Critical
Publication of CN113033201B publication Critical patent/CN113033201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种地震新闻信息抽取方法及其系统,方法包括:将实体库中的第一实体链接到新闻文本上,对链接有第一实体的新闻文本识别得到第二实体,并对识别后的新闻文本进行分句,以得到包括新闻原句的第二处理文本;对第二处理文本识别和分词后得到第二数字类社会属性新闻数组,转化得到第二数字类社会属性新闻数组中的阿拉伯数字,将元素、阿拉伯数字和新闻原句输出;根据第二处理文本的时间要素对新闻原句设置时刻信息,对新闻原句识别得到新闻原句中的第三实体和关系动词列表,根据优先级顺序获取关系动词列表中的关系动词,并将第三实体、关系动词、时刻信息和新闻原句输出。本发明的有益效果:实现了基于时间线形成全面的新闻事件脉络。

Description

一种地震新闻信息抽取方法及其系统
技术领域
本发明涉及自然语言处理信息抽取技术领域,尤其涉及一种地震新闻信息抽取方法及其系统。
背景技术
地震事件是隶属于突发事件下具有极大危害性的自然灾害事件,通常会造成极大社会影响、带来严重经济损失和人员伤亡。当前国内对地震事件的研究主要在于应急救援指导、舆情引导、地震事件信息挖掘、地震信息存储以及地震数据实时监控等五个方面,国外则主要研究地震后产生的应激反应、地震知识共享以及社交媒体传播三个方面。
从当前的从媒体报道地震新闻事件的角度来看,不同媒体之间的时刻信息差和不同采访对象也导致其报道的新闻往往会从地震的不同角度进行报道,诸如地震带来的人员伤亡,是否导致震区交通阻断,救援队伍的救灾情况等,这也使得人们难以通过一家媒体了解地震新闻事件发生的全貌。
因此,目前需要一种对地震新闻文本的实体关系进行抽取的技术,然而目前的实体关系抽取技术没有基于时刻信息线展现地震新闻事件的变化发展情况,无法形成地震新闻事件脉络,并且没有将地震新闻事件作为实体与其他类实体诸如实体人物、实体机构等进行链接,形成地震新闻事件与实体的关系网络。
发明内容
针对现有技术中存在的上述问题,现提供一种地震新闻信息抽取方法及其系统。
具体技术方案如下:
一种地震新闻信息抽取方法,其中,包括以下步骤:
步骤S1,将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
步骤S2,对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
步骤S3,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
步骤S4,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
步骤S5,将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的时间顺序依次输出第五数组。
优选的,地震新闻信息抽取方法,其中,步骤S1具体包括以下步骤:
步骤S11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
步骤S12,将第一实体链接至第一实体数据。
优选的,地震新闻信息抽取方法,其中,对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,具体包括以下步骤:
步骤S21,获取并将新闻文本中的待删除字符删除,以得到删除待删除字符后的新闻文本;
步骤S22,获取根据分句字符对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
优选的,地震新闻信息抽取方法,其中,步骤S3具体包括以下步骤:
步骤S31,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组;
步骤S32,将第一数字类社会属性新闻数组加载到分词模块上,采用分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果;
步骤S33,遍历第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为分词结果,并将不是分词结果的元素删除,以得到第二数字类社会属性新闻数组;
步骤S34,对第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;
步骤S35,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出。
优选的,地震新闻信息抽取方法,其中,步骤S4具体包括以下步骤:
步骤S41,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息;
步骤S42,根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出;
步骤S43,根据地震事件与实体关系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词;
步骤S44,根据时刻信息转换函数将时刻信息转化为预设格式的时刻信息数据;
步骤S45,将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出。
优选的,地震新闻信息抽取方法,其中,步骤S4还包括:
当新闻原句不包括时间要素时,根据与新闻原句相邻的新闻原句中的时间要素设置新闻原句的时刻信息。
优选的,地震新闻信息抽取方法,其中,步骤S4还包括:
判断第二处理文本的时间要素是否完整;
若否,根据新闻文本中的发稿时间对时间要素进行补充完整,以方便后续根据完整的时间要素对时间要素所在的新闻原句设置时刻信息。
优选的,地震新闻信息抽取方法,其中,第一实体中的元素包括:实体名、实体类型、发震时刻,发震地点,震级,震源深度,经纬度。
优选的,地震新闻信息抽取方法,其中,第二实体包括实体人物信息和实体机构信息。
还包括一种地震新闻信息抽取系统,其中,包括以下步骤:
链接模块,用于将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
识别模块,用于对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
数字类社会属性模块,用于通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
事件实体关系提取模块,用于对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
组合模块,用于将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的顺序依次输出第五数组。
上述技术方案具有如下优点或有益效果:
第一、实现了从新闻文本中提取新闻文本的数字类社会属性;
第二、实现了从新闻文本中提取新闻事件与相关实体,并形成新闻事件与相关实体的关系网络。
第三、实现了基于时间线形成全面的新闻事件脉络。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明地震新闻信息抽取方法的实施例的流程图;
图2为本发明地震新闻信息抽取方法的实施例的步骤S1的流程图;
图3为本发明地震新闻信息抽取方法的实施例的步骤S2的流程图;
图4为本发明地震新闻信息抽取方法的实施例的步骤S3的流程图;
图5为本发明地震新闻信息抽取方法的实施例的步骤S4的流程图;
图6为本发明地震新闻信息抽取系统的实施例的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括一种地震新闻信息抽取方法,如图1所示,包括以下步骤:
步骤S1,将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
步骤S2,对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
步骤S3,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
步骤S4,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息、新闻原句和时间要素关联成第四数组后输出;
步骤S5,将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的时间顺序依次输出第五数组。
在上述实施例中,通过预设的数字类社会属性和正则表达式提取得到第一数字类社会属性新闻数组,从而实现从新闻文本中提取新闻文本的数字类社会属性;
通过实体列表以及关系词表识别得到第三实体和第三实体对应的关系动词列表,并且根据地震事件与实体关系表获取得到关系动词列表中的至少一个关系动词,从而实现了从新闻文本中提取第一实体、第二实体与第三实体之间的关系网络,进而实现了新闻事件(即第一实体)与相关实体(即第二实体和第三实体)的关系网络;
根据时刻信息的时间顺序依次输出第五数组,从而实现基于时间线形成全面的新闻事件脉络。
进一步地,在上述实施例中,如图2所示,步骤S1具体包括以下步骤:
步骤S11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
步骤S12,将第一实体链接至第一实体数据。
在上述实施例中,通过将第一实体链接至第一实体数据,从而实现新闻文本的实体链接。
作为优选的实施方式,可以将中国地震局地震目录上的地震数据实时注册进实体库,以得到第一实体;
随后根据第一实体对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
接着,将第一实体链接至第一实体数据,并且对链接有第一实体的新闻文本设置有唯一的新闻文本标签。
从而通过实体库使得实体链接的信息来源更加全面,使得实体链接更加准确。
其中,第一实体对应于唯一的实体ID,并且第一实体包括七个实体属性:实体名、实体类型、发震时刻,发震地点,震级,震源深度,经纬度。
在上述实施例中,根据实体识别算法对第一处理文本进行实体识别,以识别得到第二实体;其中第二实体对应设置有唯一的实体ID,并且第二实体包括实体人物信息和实体机构信息,实体人物信息和实体机构信息分别包括以下属性:第二实体(fullname)、第二实体对应的实体类别(category)和第二实体于新闻文本中的名称(name)。
进一步地,在上述实施例中,对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,如图3所示,具体包括以下步骤:
步骤S21,获取并将新闻文本中的待删除字符删除,以得到删除待删除字符后的新闻文本;
步骤S22,获取根据分句字符对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
在上述实施例中,待删除字符可以包括换行符、空格字符以及特殊字符;
分句字符可以包括句号和分号。
作为优选的实施方式,首先将将新闻文本中的待删除字符删除,随后根据句号和分号对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
进一步地,在上述实施例中,如图4所示,步骤S3具体包括以下步骤:
步骤S31,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组;
在上述实施例中,通过预设的数字类社会属性和正则表达式对第二处理文本进行第一轮提取,输出结果为提取出的第一数字类社会属性新闻数组。数字类社会属性包括八大类二十八小类,数字类社会属性如下表1所示:
表1
步骤S32,将第一数字类社会属性新闻数组加载到分词模块上,采用分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果;
作为优选的实施方式,可以采用jieba分词词典,即将第一数字类社会属性新闻数组加载到jieba分词词典上,并通过jieba分词词典中的jieba分词模块分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果。
步骤S33,遍历第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为分词结果,并将不是分词结果的元素删除,以得到第二数字类社会属性新闻数组;
步骤S34,对第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;
在上述实施例中,对第二数字类社会属性新闻数组中的每个元素进行归一化处理,以将识别得到的非阿拉伯数字(例如汉字数字或英文数字)转化为阿拉伯数字,随后提取出每个元素的数字。
步骤S35,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出。
在上述实施例中,根据元素所处的位置,查找到元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出,其中第一数组中的元素、元素对应的阿拉伯数字和元素所在的新闻原句成键值对关系,并且第一数组为JSON格式的数组。
进一步地,在上述实施例中,如图5所示,步骤S4具体包括以下步骤:
步骤S41,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息;
在上述实施例中,时间要素可以为准确时间以及模糊时间,模糊时间诸如“13日下午”,“15日早上”等。
作为优选的实施方式,根据模糊时间表将模糊时间转化为预设对应时间,并根据预设对应时间对模糊时间所在的新闻原句设置时刻信息;
其中模糊时间表如下表2所示:
模糊时间 预设对应时间
凌晨 0时
黎明 3时
早晨 9时
中午 12时
下午 15时
傍晚 17时
晚上 19时
深夜 23时
表2。
在上表2中,例如,新闻文本中出现模糊时间——凌晨时,可以根据上述模糊时间表将模糊时间——凌晨转化为预设对应时间——0时。
步骤S42,根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出;
步骤S43,根据地震事件与实体关系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词;
在上述实施例中,将第二数组中的关系动词列表里得到的关系动词按照地震事件与实体关系表的内自上而下的优先级顺序进行提取,地震事件与实体关系表如下表3所示:
表3
步骤S44,根据时刻信息转换函数将时刻信息转化为预设格式的时刻信息数据;
在上述实施例中,预设格式的时刻信息数据为13位的timestamp格式,例如1387173699000,其中1387173699000用于表示:自1970年1月1日至某时的毫秒数。
步骤S45,将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出。
进一步地,在上述实施例中,步骤S4还包括:
当新闻原句不包括时间要素时,根据与新闻原句相邻的新闻原句中的时间要素设置新闻原句的时刻信息。
作为优选的实施方式,当新闻文本包括四条新闻原句时,即此时的第二处理文本包括四条新闻原句,并且此时的第一条新闻原句、第三条新闻原句和第四条新闻原句均包括时间要素,而第二条新闻原句不包括时间要素,此时,可以选择与第二条新闻原句相邻的第一条新闻原句或第三条新闻原句的时间要素设置第二条新闻原句的时刻信息,如下表4所示:
表4
在上表4中,第二条新闻原句的时刻信息可以根据第一条新闻原句的时间要素进行设置。
进一步地,在上述实施例中,步骤S4还包括:
判断第二处理文本的时间要素是否完整;
若否,根据新闻文本中的发稿时间对时间要素进行补充完整,以方便后续根据完整的时间要素对时间要素所在的新闻原句设置时刻信息。
在上述实施例中,当时间要素缺少年份、月份的时间时,可以通过新闻文本中的发稿时间进行补充。
作为优选的实施方式,以6.17XXX省XXX市XXX县地震为例的新闻文本为例,其中上述新闻文本包括新闻标题(新闻文本为6.17XXX省XXX市XXX县地震),新闻内容和发稿日期;
首先,对新闻文本中的新闻标题进行实体识别,以得到第一实体数据,并根据第一实体数据与实体库中获取与第一实体数据相对应的第一实体,并将第一实体链接至第一实体数据,上述新闻文本对应的第一实体包括:实体ID,事件名、事件类型、发生时刻,发生地点,震级,震源深度,经纬度;如下表5所示:
表5
随后,对第一处理文本进行实体识别,以识别得到第二实体和第二实体对应的实体标签,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,其中识别得到第二实体如下表6所示:
表6
接着,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出,第一数组如下表7所示:
表7
然后,对第二处理文本的时间信息进行识别,并根据时间信息对时间信息所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词,并将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出,其中,第三实体对应于实体ID和实体类型,第四数组如下表8所示:
表8
还包括一种地震新闻信息抽取系统,如图6所示,包括以下步骤:
链接模块1,用于将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
识别模块2,与链接模块1连接,用于对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
数字类社会属性模块3,与识别模块2链接,用于通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
事件实体关系提取模块4,与识别模块2连接,用于对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
组合模块5,分别与数字类社会属性模块3和事件实体关系提取模块4连接,用于将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的顺序依次输出第五数组。
在上述实施例中,本发明地震新闻信息抽取系统的具体实施方式与上述地震新闻信息抽取方法各实施例基本相同,在此不再赘述。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围。

Claims (8)

1.一种地震新闻信息抽取方法,其特征在于,包括以下步骤:
步骤S1,将实体库中的第一实体链接到新闻文本上,并且链接有所述第一实体的新闻文本记为第一处理文本;
步骤S2,对所述第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
步骤S3,通过预设的数字类社会属性和正则表达式对所述第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据所述第一数字类社会属性新闻数组对所述第二处理文本进行分词,以得到分词结果,并根据所述分词结果将不存在于所述分词结果中的所述第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将所述第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
步骤S4,对所述第二处理文本的时间要素进行识别,并根据所述时间要素对所述时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对所述时间要素所在的新闻原句进行实体识别,以识别得到所述新闻原句中的第三实体和所述第三实体对应的关系动词列表,并将所述第三实体、所述第三实体对应的关系动词列表和所述时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到所述第二数组中的所述关系动词列表中的至少一个关系动词,并依次将第三实体、所述第三实体对应的所述关系动词、所述时刻信息、所述新闻原句和所述时间要素关联成第四数组后输出;
步骤S5,将所述第一数组和所述第四数组进行组合,以得到第五数组,并根据所述时刻信息的时间顺序依次输出所述第五数组。
2.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于所述第一实体的第一实体数据;
步骤S12,将所述第一实体链接至所述第一实体数据。
3.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,具体包括以下步骤:
步骤S21,获取并将新闻文本中的待删除字符删除,以得到删除所述待删除字符后的新闻文本;
步骤S22,获取根据分句字符对删除所述待删除字符后的新闻文本进行分句,以得到新闻原句。
4.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31,通过预设的所述数字类社会属性和所述正则表达式对所述第二处理文本进行实体识别,以识别得到所述第一数字类社会属性新闻数组;
步骤S32,将所述第一数字类社会属性新闻数组加载到分词模块上,采用所述分词模块对所述第二处理文本中的新闻原句进行分词,以得到对应于所述新闻原句的所述分词结果;
步骤S33,遍历所述第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为所述分词结果,并将不是所述分词结果的元素删除,以得到所述第二数字类社会属性新闻数组;
步骤S34,对所述第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;
步骤S35,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成所述第一数组后输出。
5.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41,对所述第二处理文本的时间要素进行识别,并根据所述时间要素对所述时间要素所在的新闻原句设置时刻信息;
步骤S42,根据所述实体列表以及所述关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的所述第三实体和所述第三实体对应的所述关系动词列表,并将所述第三实体、所述第三实体对应的所述关系动词列表和所述时刻信息关联成所述第二数组后输出;
步骤S43,根据地震事件与实体关系表的优先级顺序提取得到所述第二数组中的所述关系动词列表中的至少一个所述关系动词;
步骤S44,根据时刻信息转换函数将所述时刻信息转化为预设格式的时刻信息数据;
步骤S45,将所述第三实体、所述第三实体对应的所述关系动词、所述时刻信息对应的所述时刻信息数据、新闻原句和时间要素关联成所述第四数组后输出。
6.如权利要求5所述的地震新闻信息抽取方法,其特征在于,所述步骤S4还包括:
当所述新闻原句不包括所述时间要素时,根据与所述新闻原句相邻的所述新闻原句中的时间要素设置所述新闻原句的时刻信息。
7.如权利要求1所述的地震新闻信息抽取方法,其特征在于,所述步骤S4还包括:
判断所述第二处理文本的时间要素是否完整;
若否,根据所述新闻文本中的发稿时刻信息对所述时间要素进行补充完整,以方便后续根据完整的所述时间要素对所述时间要素所在的所述新闻原句设置时刻信息。
8.一种地震新闻信息抽取系统,其特征在于,包括以下步骤:
链接模块,用于将实体库中的第一实体链接到新闻文本上,并且链接有所述第一实体的新闻文本记为第一处理文本;
识别模块,用于对所述第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
数字类社会属性模块,用于通过预设的数字类社会属性和正则表达式对所述第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据所述第一数字类社会属性新闻数组对所述第二处理文本进行分词,以得到分词结果,并根据所述分词结果将不存在于所述分词结果中的所述第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将所述第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
事件实体关系提取模块,用于对所述第二处理文本的时间要素进行识别,并根据所述时间要素对所述时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对所述时间要素所在的新闻原句进行实体识别,以识别得到所述新闻原句中的第三实体和所述第三实体对应的关系动词列表,并将所述第三实体、所述第三实体对应的关系动词列表和所述时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到所述第二数组中的所述关系动词列表中的至少一个关系动词,并依次将第三实体、所述第三实体对应的所述关系动词、所述时刻信息和所述新闻原句关联成第四数组后输出;
组合模块,用于将所述第一数组和所述第四数组进行组合,以得到第五数组,并根据所述时刻信息的时间顺序依次输出所述第五数组。
CN202011231567.1A 2020-11-06 2020-11-06 一种地震新闻信息抽取方法及其系统 Active CN113033201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011231567.1A CN113033201B (zh) 2020-11-06 2020-11-06 一种地震新闻信息抽取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011231567.1A CN113033201B (zh) 2020-11-06 2020-11-06 一种地震新闻信息抽取方法及其系统

Publications (2)

Publication Number Publication Date
CN113033201A CN113033201A (zh) 2021-06-25
CN113033201B true CN113033201B (zh) 2023-07-28

Family

ID=76459009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011231567.1A Active CN113033201B (zh) 2020-11-06 2020-11-06 一种地震新闻信息抽取方法及其系统

Country Status (1)

Country Link
CN (1) CN113033201B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2443036A1 (en) * 2003-09-14 2005-03-14 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved metanews and/or improved automatically generated newspapers.
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122012B2 (en) * 2005-01-14 2012-02-21 International Business Machines Corporation Abstract record timeline rendering/display
US7840604B2 (en) * 2007-06-04 2010-11-23 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US20080301094A1 (en) * 2007-06-04 2008-12-04 Jin Zhu Method, apparatus and computer program for managing the processing of extracted data
US20150294370A1 (en) * 2011-04-07 2015-10-15 ntangle labs, inc. Target Area Based Monetization Using Sensory Feedback
US20140012574A1 (en) * 2012-06-21 2014-01-09 Maluuba Inc. Interactive timeline for presenting and organizing tasks
US9377933B2 (en) * 2012-09-24 2016-06-28 Facebook, Inc. Displaying social networking system entity information via a timeline interface
IN2013MU02339A (zh) * 2013-07-11 2015-06-19 Tata Consultancy Services Ltd
US10162870B2 (en) * 2015-09-30 2018-12-25 International Business Machines Corporation Historical summary visualizer for news events
CN108062402B (zh) * 2017-12-27 2020-10-27 云润大数据服务有限公司 一种事件时间轴挖掘方法与系统
CN110633438B (zh) * 2018-05-31 2023-04-07 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN109543034B (zh) * 2018-11-07 2021-07-16 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109635089B (zh) * 2018-12-14 2023-09-05 李华康 一种基于语义网络的文学作品新颖度评价系统和方法
CN109885824B (zh) * 2019-01-04 2024-02-20 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2443036A1 (en) * 2003-09-14 2005-03-14 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved metanews and/or improved automatically generated newspapers.
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文体和词表的突发事件信息抽取研究;邱奇志;周三三;刘长发;陈晖;;中文信息学报(第09期);全文 *

Also Published As

Publication number Publication date
CN113033201A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
Resch et al. Combining machine-learning topic models and spatiotemporal analysis of social media data for disaster footprint and damage assessment
US11593671B2 (en) Systems and methods for semantic analysis based on knowledge graph
US20170344654A1 (en) Method and system for analyzing data using a query answering system
US20060173916A1 (en) Method and system for automatically generating a personalized sequence of rich media
US20070220063A1 (en) Event data translation system
CN102956231B (zh) 基于半自动校正的语音关键信息记录装置及方法
AU2018411565B2 (en) System and methods for generating an enhanced output of relevant content to facilitate content analysis
Ketmaneechairat et al. Natural language processing for disaster management using conditional random fields
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
Dai et al. Fine-grained structure-based news genre categorization
CN115934926A (zh) 信息提取方法、装置、计算机设备、存储介质
CN112699677A (zh) 事件提取方法及装置、电子设备、存储介质
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN113033201B (zh) 一种地震新闻信息抽取方法及其系统
CN112488736A (zh) 一种住建领域政务热线工单数据分析方法及系统
CN109542845B (zh) 一种基于关键词表达式的文本元数据提取方法
Leblay et al. Computational fact-checking: Problems, state of the art, and perspectives
CN116881395A (zh) 一种舆情信息检测方法和装置
Miller et al. Digging into human rights violations: Data modelling and collective memory
CN112541075B (zh) 一种警情文本的标准案发时间提取方法及系统
CN109408704B (zh) 基金数据关联方法、系统、计算机设备和存储介质
Paradowski Women’s strike in Poland as a communication phenomenon on Twitter
KR102604582B1 (ko) 시공재해 db 통합을 위한 핵심어구 추출 및 정확도 평가 방법
Sreeraag et al. A Comparative Analysis of Tweets from the South Indian States based on COVID-19 Omicron wave
CN114021566A (zh) 一种开放域文本的实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant