CN104408093B - 一种新闻事件要素抽取方法与装置 - Google Patents
一种新闻事件要素抽取方法与装置 Download PDFInfo
- Publication number
- CN104408093B CN104408093B CN201410645944.4A CN201410645944A CN104408093B CN 104408093 B CN104408093 B CN 104408093B CN 201410645944 A CN201410645944 A CN 201410645944A CN 104408093 B CN104408093 B CN 104408093B
- Authority
- CN
- China
- Prior art keywords
- mrow
- name
- media event
- leading role
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及新闻文本中的信息抽取技术,以及更具体地,涉及一种新闻事件要素抽取方法与装置。
背景技术
新闻事件是指发生在某时某地的一件特别的事情,它可以由许多要素组成,其中较为关键的要素包括:事件发生的时间、事件发生的地点、事件的主角、主角所持的观点和事件的某些特殊属性。这些要素不仅有助于新闻阅读者快速把握新闻事件的主体内容,而且可以为海量新闻数据的自动分析和处理提供必要的基础内容信息。
随着互联网普及率的上升和信息公开化程度的提高,网络已经成为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。迅速、准确地从新闻报道中自动抽取新闻事件的要素,尤其是关键要素,不仅能够改善代价昂贵的人工分析和管理新闻事件的过程,而且具有广泛的新闻自动分析方面的应用前景,例如为网络舆情的监控和预警、新闻事件检索和决策支持等上层应用提供支持。由于新闻文本在形式上具有词汇、句式规范,篇章结构统一,语言风格稳定等特点,使得自动抽取新闻事件的关键要素成为可能。
然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取新闻正文或对新闻正文进行简单的分类,关于理解新闻内容并抽取关键要素方面的工作仍然空缺。
发明内容
针对上述问题,根据本发明的一个实施例,提供一种新闻事件要素抽取方法,包括:
步骤1)、识别新闻文本中包含的人名并抽取人名特征;
步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及
步骤3)、基于该概率识别出新闻事件的主角。
上述方法中,所述人名特征包括人名在所述新闻文本中的上/下文特征、频率特征和位置特征。其中,根据下式计算人名成为新闻事件的主角的概率:
其中,namei表示人名,C(namei)表示该人名在上/下文特征上的取值,fre(namei)表示该人名出现的次数,len(text)表示所述新闻文本的总字符长度,pos(namei)表示该人名在所述新闻文本中首次出现的字符位置。
上述方法中,识别新闻文本中包含的人名包括:使用人名识别器识别新闻文本中包含的人名;其中,所述人名识别器是通过使用公开语料库,训练条件随机场模型得到的。
在一个实施例中,上述方法还包括:从所述新闻文本中抽取关于新闻事件的主角的观点和发言的语句。其中,抽取关于新闻事件的主角的观点和发言的语句包括:
对所述新闻文本进行断句,抽取同时包括主角人名和触发词的语句,加入候选观点语句集合;
抽取同时包含第三人称代词和触发词的语句,根据与该语句相邻的前两句中出现的人名判断该第三人称代词是否指代新闻事件的主角,如果是,则将该语句加入候选观点语句集合;以及
从候选观点语句集合中移除包含停用触发词的语句;其中,触发词和停用触发词是由词或标点符号组成的表达式。
上述方法中,根据如下步骤获得触发词和停用触发词:
随机选取多篇新闻文本,抽取关于新闻事件的主角的观点和发言的语句,得到训练语句集合;
对训练语句集合进行分词和词性标注处理,根据词性、词频以及该词与主角的位置关系选取出触发词;其中,如果触发词的相邻字符为标点符号,则将该触发词与相邻标点符号的组合作为另一个触发词;
用已获得的触发词在所述多篇新闻文本中抽取关于新闻事件的主角的观点和发言的语句,将抽取结果和训练语句集合进行对比,将产生错误语句的触发词结合其相邻的词作为停用触发词。
在一个实施例中,上述方法还包括:使用新闻事件分类器来判定新闻事件的类别。其中,根据如下步骤构造新闻事件分类器:
随机选取多篇新闻文本作为训练样本,人工标注该新闻文本所描述的新闻事件的类别;
对所述训练样本进行分词和词性标注,根据词性和卡方公式选择特征词;以及
将所述训练样本向量化,用于训练支持向量机模型,从而获得新闻事件分类器。
在一个实施例中,上述方法还包括:根据新闻事件的类别,利用该类别对应的抽取规则抽取该新闻事件的属性。
在一个实施例中,上述方法还包括:识别新闻事件发生的地点。其中,识别新闻事件发生的地点包括:
使用地名识别器识别所述新闻文本中包含的地名;其中,所述地名识别器是通过使用公开语料库,训练条件随机场模型得到的;
根据地名在新闻文本中的位置、上/下文,以及与新闻事件的主角之间的距离,获得新闻事件发生的地点。
在一个实施例中,上述方法还包括:识别新闻事件发生的时间。其中,识别新闻事件发生的时间包括:
使用时间识别器识别所述新闻文本中包含的时间短语;其中,所述时间识别器是通过使用公开语料库,训练条件随机场模型得到的;
根据时间短语在新闻文本中出现的位置、类型、与新闻事件的主角之间的距离,以及与新闻事件的属性之间的距离,获得新闻事件发生的时间;
对新闻事件发生的时间进行归一化处理。
在一个实施例中,上述方法还包括:预处理所采集的新闻网页,得到新闻文本。其中,预处理所采集的新闻网页包括:
从所采集的新闻网页中提取新闻正文;以及
在提取出的新闻正文中过滤掉除汉字、字母、数字和标点符号之外的字符。
根据本发明的一个实施例,还提供一种新闻事件要素抽取装置,包括:
主角识别模块,用于从新闻文本中识别新闻事件的主角;
主角观点和发言抽取模块,用于从所述新闻文本中抽取关于新闻事件的主角的观点和发言的语句;
事件分类及相关属性抽取模块,用于判定新闻事件的类别,根据类别从所述新闻文本中抽取新闻事件的属性,以及从所述新闻文本中识别新闻事件发生的地点;以及
事件时间识别模块,用于从所述新闻文本中识别新闻事件发生的时间。
本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明一个实施例的新闻事件要素抽取方法的流程图;
图2是根据本发明一个实施例的主角观点和发表言论抽取方法的流程图;
图3是根据本发明一个实施例的事件类别相关的其他要素抽取方法的流程图;
图4是根据本发明一个实施例的新闻事件要素抽取装置的框图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种新闻事件要素抽取方法。
概括而言,该方法包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。
现结合图1分别描述该新闻事件要素抽取方法的每一步骤。
第一步:预处理采集的新闻网页。
新闻网页中通常包含大量与新闻事件无关的内容,在预处理时将新闻的正文提取出来,得到新闻文本,从而方便后面步骤执行要素抽取操作。
在一个实施例中,预处理采集的新闻网页包括以下两个子步骤:
1、解析所采集的新闻网页的网页结构,利用HTML(超文本标记语言)标签提取新闻的正文,并且过滤掉图片、外部链接等无关的内容。
2、对于提取出的新闻正文,过滤掉除汉字、字母、数字和标点符号以外的特殊字符,得到用于下一步处理的新闻文本。
第二步:识别新闻事件的主角。
概括而言,识别新闻事件的主角包括识别新闻文本中包含的所有人名并抽取人名特征,根据所抽取的人名特征识别出新闻事件的主角。
在一个实施例中,本步骤包括如下子步骤:
1、使用人工标注的公开语料库,训练条件随机场(Conditional Random Field,CRF)模型,从而得到人名识别器。对于第一步得到的新闻文本,使用训练好的人名识别器识别出所有人名。
2、依次抽取人名在该篇新闻中的上/下文特征、频率特征和位置特征,根据所抽取的人名特征计算人名成为新闻事件主角的概率,计算方法如下:
其中,namei表示新闻中包含的某个人名;C(namei)表示该人名在上/下文特征上的取值,例如,当人名的前缀为“记者”时,取值为0,否则为1;fre(namei)是该人名出现的次数;len(text)是新闻文本的总字符长度;pos(namei)是该人名在新闻文本中首次出现的字符位置。
3、将该篇新闻中识别出的所有人名按照计算出的概率降序排序,选取概率最大的人名作为主角。
第三步:抽取新闻事件的主角在事件发生过程中所持的观点和发表的言论。
抽取主角所持的观点和发表的言论也就是在新闻文本中抽取出表示主角观点和发言的语句,该步骤包括从新闻文本中抽取包括表示观点或发言的词的语句,并且对这些语句进行过滤。
在一个实施例中,主角所持观点和发表言论的抽取方法包括以下子步骤:
1、基于人工标注的语料,自动获取表示观点和发言的触发词词表以及停用触发词词表。所述触发词是指由表示观点或发言的词、标点符号组成的表达式,例如“认为”、“说:”。
在一个实施例中,触发词词表和停用触发词词表的自动构建方法包括:
1.1、随机选取n篇(如500篇)新闻作为目标数据集进行人工标注,标记并抽取出表示主角观点和发言的语句,得到训练语句集合。
1.2、对训练语句集合进行分词和词性标注处理,根据词性、词频、该词与主角的位置关系等特征选取具有代表性的词作为触发词加入触发词词表,如果某个触发词的相邻字符为标点符号,则将“触发词+相邻标点”作为新的触发词也加入触发词词表,例如,“说”、“说:”同为触发词。
1.3、基于错误驱动思想,使用已获得的触发词词表在目标数据集上进行抽取(即抽取表示主角观点和发言的语句),将抽取的结果集合和训练语句集合进行对比,将产生错误语句的触发词结合其相邻的词作为停用触发词加入到停用触发词词表,例如,“称:”为触发词,“报道称:”为停用触发词。
2、利用标点符号对新闻文本进行断句,抽取同时包含主角姓名和触发词的语句,加入到候选观点语句集合。
3、抽取同时包含第三人称代词和触发词的语句,根据与该句相邻的前两句中出现的人名,判断该人称代词是否指代新闻事件的主角,如果是,则将该语句加入到候选观点语句集合。
4、使用停用触发词词表,对候选观点语句集合进行过滤,移除包含噪音(即移除包含停用触发词)的语句,剩余的语句即为主角在事件发生过程中所持的观点和发表的言论。
第四步:判定新闻事件的类别。
概括而言,本步骤使用事先训练好的新闻事件分类器来判定新闻文本中新闻事件的类别。
在一个实施例中,新闻事件的类别包括主角会晤/会见某人、主角出席/主持会议、主角在报刊/杂志上发表言论和普通事件四类。
在一个实施例中,新闻事件分类器的构造方法包括以下步骤:
1、随机选取m篇(如200篇)新闻文本作为训练样本,人工标注该批新闻所描述事件的类别。
2、对训练样本进行分词、词性标注后,根据词性和卡方公式选择具有代表性的特征词。
3、将训练样本向量化,用于训练支持向量机(Support Vector Machine,SVM)模型,从而获得新闻事件分类器。
第五步:识别事件发生的地点。
在上一步获得新闻事件的类别后,如果该新闻事件的类别属于预先指定的特定类别(例如,主角会晤/会见某人或者主角出席/主持会议),则可以进一步识别事件发生的地点。概括而言,本步骤首先识别新闻文本中出现的地名,接着根据地名特征来识别出事件发生的地点。
在一个实施例中,识别事件发生地点的方法包括如下步骤:
1、使用人工标注的公开语料库,训练基于条件随机场的地名识别器,对于给定的新闻文本,使用该地名识别器识别出所有地名;
2、根据地名在新闻文本中的位置、上/下文、与主角之间的距离等特征,判定新闻事件发生的地点。
第六步:抽取不同的事件特殊属性。
在获得新闻事件的类别后,可利用人工定义的抽取规则,针对不同类别的新闻事件,在新闻文本中进行事件特殊属性的抽取。
在一个实施例中,事件特殊属性包括:会晤/会见类事件的会见对象、出席/主持会议类事件的会议名称和报刊/杂志类事件的报刊/杂志名称等。
第七步:识别事件发生的时间。
概括而言,对事件发生时间的识别包括:识别新闻中包含的所有时间短语并抽取相关特征,根据所抽取的特征,综合判断新闻事件发生的时间。
在一个实施例中,识别新闻事件发生的时间包括如下子步骤:
1、使用人工标注的公开语料库,训练基于条件随机场的时间识别器,对于给定的新闻文本,使用时间识别器识别出所有时间短语。
2、抽取每个时间短语在新闻文本中的特征,该特征例如是出现的位置、时间短语的类型、时间短语与主角之间的距离、时间短语与事件特殊属性之间的距离等,根据抽取出的特征综合判断新闻事件发生的时间。
3、利用新闻采集时间作为参照时间,对事件发生时间进行归一化处理,补全缺失的年份或者月份信息。
上文给出了一种新闻事件关键要素抽取方法的实施例,需要说明的是,说明书中描述的方法的各个步骤并非一定是必须的,而是可以根据实际情形来省略或替换其中的一个或多个步骤(例如,省略第三至七步),并且可以调换某些步骤的顺序。此外,第二步中的人名识别器、第三步中的触发词词表和停用触发词词表、第四步中的新闻事件分类器、第五步中的地名识别器和第七步中的时间识别器均可以事先进行训练,在抽取新闻事件关键要素的过程中直接使用,无需重复训练。
下面以抽取新闻事件的主角、主角的观点和发言,以及新闻事件发生的地点和时间为例,描述采用本发明提供的新闻事件要素抽取方法的具体流程。其中,使用98年人民日报语料训练人名识别器和地名识别器,使用ACE'2005中文语料训练时间识别器。
给定一个新闻网页,首先进行网页清洗,根据HTML标签提取新闻正文,并对正文进行过滤,仅保留汉字、字母、数字和标点符号,进入要素抽取流程:
首先,识别出新闻事件的主角,识别流程包括:1)使用事先训练好的人名识别器识别出新闻文本中的所有人名;2)根据人名的上/下文特征、频率特征和位置特征,根据公式(1)依次计算所有人名成为新闻事件主角的概率;3)将人名按主角概率降序排序,选取概率最大的人名,从而获得新闻事件的主角。表1给出了上/下文特征的部分示例,当人名符合表1中某个特征时,成为主角的概率为0。
表1
其次,抽取出主角的观点和言论。
再次,对新闻文本进行处理,包括:1)使用事先训练好的新闻事件分类器对新闻事件进行分类;2)分类后的新闻事件如果属于主角会晤/会见某人或者主角出席/主持会议这两类,则识别新闻事件的发生地点;3)如果分类后的新闻事件不是普通事件,则进一步抽取新闻事件的特殊属性。
最后,识别出新闻事件发生的时间,识别流程为:1)使用事先训练好的时间识别器识别出新闻文本包含的所有时间短语;2)根据时间短语在新闻文本中的位置、时间短语的类型、时间短语与主角之间的距离、时间短语与事件特殊属性之间的距离等特征,综合判断出新闻事件发生的时间;3)利用新闻采集时间作为参照时间,对识别出的事件发生时间进行归一化处理,补全缺失的年份或者月份信息。
下文结合图2和图3,以抽取主角的观点和发言、新闻事件发生的地点和特殊属性为例,描述采用本发明提供的新闻事件要素抽取方法的具体流程。
图2是抽取主角观点和发言的具体流程。
首先,自动构建用于抽取观点和发言的触发词词表、停用触发词词表,构建流程为:1)随机选取500篇新闻作为目标数据集进行人工标注,标记并抽取出表示主角观点和发言的语句,得到训练语句集合;2)对训练语句集合进行分词和词性标注处理,根据词性、词频、该词与主角的位置关系等特征选取具有代表性的词作为触发词加入触发词词表,如果某个触发词的相邻字符为标点符号,则将“触发词+相邻标点”作为新的触发词也加入触发词词表;3)基于错误驱动思想,使用已获得的触发词词表在目标数据集上进行抽取,将抽取的结果集合和训练语句集合进行对比,将产生错误语句的触发词结合上其相邻的词作为停用触发词加入到停用触发词词表。表2给出了触发词和停用触发词的部分示例。
表2
其次,利用标点符号对新闻文本进行断句,抽取同时包含主角姓名和触发词的语句,加入到候选观点语句集合。
然后,抽取同时包含第三人称代词和触发词的语句,根据与该句相邻的前两句中出现的人名,判断人称代词是否指代的事件主角,如果是,将该句话加入到候选观点语句集合。
最后,使用停用触发词词表,对候选观点语句集合进行过滤,移除包含噪音的语句,剩余的语句即为主角在事件发生过程中所持的观点和发表的言论。
图3是抽取其他要素的具体流程。
首先,基于判定出的新闻事件类别进行新闻发生地点的识别,识别流程包括:1)使用事先训练好的地名识别器识别出新闻文本中包含的所有地名;2)根据地名在新闻中的位置、上/下文、与主角之间的距离等特征,判定新闻事件发生的地点。表3是人工定义的上/下文特征示例。
表3
前缀特征 | 后缀特征 |
方位介词+地名 | 地名+动词 |
然后,基于判定出的新闻事件类别进一步抽取新闻事件的特殊属性,如果新闻事件属于主角会晤/会见某人类别,则抽取被会晤/会见的对象,如果新闻事件属于主角出席/主持会议类别,则抽取会议名称,如果新闻事件属于主角在报刊/杂志上发表言论类别,则抽取刊物名称。特殊属性的抽取使用基于规则的方法,表4给出了抽取规则的示例。
表4
根据本发明的另一个实施例,还提供一种新闻事件要素抽取装置。参考图4,该装置包括:
主角识别模块,用于识别新闻文本中包含的人名并抽取人名特征,根据所抽取的人名特征识别出新闻事件的主角;
主角观点和发言抽取模块,用于抽取新闻事件的主角在新闻事件发生时所持的观点和发表的言论;
事件分类及相关属性抽取模块,包括:事件分类子模块,用于对新闻所描述的事件进行分类;事件地点识别子模块,用于识别新闻事件发生的地点;以及,特殊属性识别子模块:用于根据类别抽取事件的特殊属性;
事件时间识别模块,用于识别并归一化新闻事件发生的时间。
为了验证本发明提供的新闻事件要素抽取方法与装置的有效性,申请人使用若干新闻网站的真实网页数据做测试。网页采集自搜狐、网易、中国新闻网、凤凰网、中国政府网和中国台湾网等18个网站。选取2013年7月23日到2013年7月25日三天的新闻(共32368篇)作为评价的目标数据集。在此数据集上运用本发明提供的方法来抽取新闻事件关键要素。为了评价本发明的抽取效果,在抽取结果集中随机选取200条进行人工标注,作为测试数据集。
本发明的评价标准主要为:新闻事件各要素的抽取准确率和新闻事件分类准确率。其中,表4列出了本发明提供的要素抽取方法的识别效果。
(1)新闻事件各要素的抽取准确率是针对不同的新闻要素分别进行评价的,它等于抽取出的正确的某要素数量除以抽取出的所有该要素数量。
(2)新闻事件分类准确率等于正确分类的新闻数量除以被分类的新闻总数量。
表4
从表4可以看出,本发明提供的新闻事件要素抽取方法的准确率足够高,适用于现有的网络舆情监控等上层应用。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。
Claims (13)
1.一种新闻事件要素抽取方法,包括:
步骤1)、识别新闻文本中包含的人名并抽取人名特征;
步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及
步骤3)、基于该概率识别出新闻事件的主角;
其中,所述人名特征包括人名在所述新闻文本中的上/下文特征、频率特征和位置特征;
所述方法还包括:识别新闻事件发生的时间,包括:
使用时间识别器识别所述新闻文本中包含的时间短语;其中,所述时间识别器是通过使用公开语料库,训练条件随机场模型得到的;
根据时间短语在新闻文本中出现的位置、类型、与新闻事件的主角之间的距离,以及与新闻事件的属性之间的距离,获得新闻事件发生的时间;
对新闻事件发生的时间进行归一化处理。
2.根据权利要求1所述的方法,其中,根据下式计算人名成为新闻事件的主角的概率:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>name</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>C</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>name</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&CenterDot;</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>name</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>2</mn>
<msub>
<mi>log&Sigma;</mi>
<mi>j</mi>
</msub>
<mi>f</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>name</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>+</mo>
<mfrac>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mo>(</mo>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>name</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>2</mn>
<mi>log</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mi>e</mi>
<mi>n</mi>
<mo>(</mo>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,namei表示人名,C(namei)表示该人名在上/下文特征上的取值,fre(namei)表示该人名出现的次数,len(text)表示所述新闻文本的总字符长度,pos(namei)表示该人名在所述新闻文本中首次出现的字符位置。
3.根据权利要求1-2中任何一个所述的方法,其中,识别新闻文本中包含的人名包括:
使用人名识别器识别新闻文本中包含的人名;其中,所述人名识别器是通过使用公开语料库,训练条件随机场模型得到的。
4.根据权利要求1-2中任何一个所述的方法,还包括:
从所述新闻文本中抽取关于新闻事件的主角的观点和发言的语句。
5.根据权利要求4所述的方法,其中,抽取关于新闻事件的主角的观点和发言的语句包括:
对所述新闻文本进行断句,抽取同时包括主角人名和触发词的语句,加入候选观点语句集合;
抽取同时包含第三人称代词和触发词的语句,根据与该语句相邻的前两句中出现的人名判断该第三人称代词是否指代新闻事件的主角,如果是,则将该语句加入候选观点语句集合;以及
从候选观点语句集合中移除包含停用触发词的语句;其中,触发词和停用触发词是由词或标点符号组成的表达式。
6.根据权利要求5所述的方法,其中,根据如下步骤获得触发词和停用触发词:
随机选取多篇新闻文本,抽取关于新闻事件的主角的观点和发言的语句,得到训练语句集合;
对训练语句集合进行分词和词性标注处理,根据词性、词频以及该词与主角的位置关系选取出触发词;其中,如果触发词的相邻字符为标点符号,则将该触发词与相邻标点符号的组合作为另一个触发词;
用已获得的触发词在所述多篇新闻文本中抽取关于新闻事件的主角的观点和发言的语句,将抽取结果和训练语句集合进行对比,将产生错误语句的触发词结合其相邻的词作为停用触发词。
7.根据权利要求1-2中任何一个所述的方法,还包括:
使用新闻事件分类器来判定新闻事件的类别。
8.根据权利要求7所述的方法,其中,根据如下步骤构造新闻事件分类器:
随机选取多篇新闻文本作为训练样本,人工标注该新闻文本所描述的新闻事件的类别;
对所述训练样本进行分词和词性标注,根据词性和卡方公式选择特征词;以及
将所述训练样本向量化,用于训练支持向量机模型,从而获得新闻事件分类器。
9.根据权利要求7所述的方法,还包括:
根据新闻事件的类别,利用该类别对应的抽取规则抽取该新闻事件的属性。
10.根据权利要求7所述的方法,还包括:
识别新闻事件发生的地点。
11.根据权利要求10所述的方法,其中,识别新闻事件发生的地点包括:
使用地名识别器识别所述新闻文本中包含的地名;其中,所述地名识别器是通过使用公开语料库,训练条件随机场模型得到的;
根据地名在新闻文本中的位置、上/下文,以及与新闻事件的主角之间的距离,获得新闻事件发生的地点。
12.根据权利要求1-2中任何一个所述的方法,还包括:
预处理所采集的新闻网页,得到新闻文本。
13.根据权利要求12所述的方法,其中,预处理所采集的新闻网页包括:
从所采集的新闻网页中提取新闻正文;以及
在提取出的新闻正文中过滤掉除汉字、字母、数字和标点符号之外的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410645944.4A CN104408093B (zh) | 2014-11-14 | 2014-11-14 | 一种新闻事件要素抽取方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410645944.4A CN104408093B (zh) | 2014-11-14 | 2014-11-14 | 一种新闻事件要素抽取方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104408093A CN104408093A (zh) | 2015-03-11 |
CN104408093B true CN104408093B (zh) | 2018-01-26 |
Family
ID=52645724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410645944.4A Active CN104408093B (zh) | 2014-11-14 | 2014-11-14 | 一种新闻事件要素抽取方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408093B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205163B (zh) * | 2015-06-29 | 2018-08-10 | 淮阴工学院 | 一种科技新闻的增量学习多层次二分类方法 |
CN105354186A (zh) * | 2015-11-05 | 2016-02-24 | 同济大学 | 一种新闻事件抽取方法及系统 |
CN106897285B (zh) * | 2015-12-17 | 2020-04-07 | 北京宸瑞国新科技有限公司 | 数据要素抽取分析系统及数据要素抽取分析方法 |
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN106021532B (zh) * | 2016-05-25 | 2019-12-06 | 东软集团股份有限公司 | 关键词的显示方法和装置 |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN107784024B (zh) * | 2016-08-31 | 2019-04-09 | 北京国双科技有限公司 | 构建当事人画像的方法及装置 |
CN106484767B (zh) * | 2016-09-08 | 2019-06-21 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106528863B (zh) * | 2016-11-29 | 2019-07-02 | 中国国防科技信息中心 | 一种crf识别器的训练及技术及其属性名关系对抽取方法 |
CN106874345B (zh) * | 2016-12-23 | 2024-02-27 | 中国科学院自动化研究所 | 基于规划-目标图的新闻事件信息抽取方法 |
CN106909656B (zh) * | 2017-02-27 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 获取文本提取模型的方法及装置 |
CN107247792B (zh) * | 2017-06-16 | 2021-01-15 | 中国电子技术标准化研究院 | 匹配职能部门的方法、装置及计算机设备 |
CN107688564A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 新闻主体企业识别方法、电子设备及计算机可读存储介质 |
CN107885833B (zh) * | 2017-11-09 | 2020-05-05 | 山东师范大学 | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 |
CN107943892B (zh) * | 2017-11-16 | 2021-12-21 | 海信集团有限公司 | 一种视频中主要角色名称的确定方法及装置 |
CN108170671A (zh) * | 2017-12-19 | 2018-06-15 | 中山大学 | 一种提取新闻事件发生时间的方法 |
CN108255811A (zh) * | 2018-01-11 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 文本时间语义确定方法、装置及电子设备 |
CN110309296A (zh) * | 2018-03-09 | 2019-10-08 | 北京国双科技有限公司 | 一种事件提取方法及装置 |
CN108536673B (zh) * | 2018-03-16 | 2022-06-21 | 数库(上海)科技有限公司 | 新闻事件抽取方法及装置 |
CN108536821A (zh) * | 2018-04-09 | 2018-09-14 | 北京信息科技大学 | 一种赛事新闻领域词库的构建方法 |
CN108846018A (zh) * | 2018-05-07 | 2018-11-20 | 中国农业大学 | 一种面向新闻的中文食品安全新闻事件信息自动抽取方法 |
CN108829801B (zh) * | 2018-06-06 | 2020-11-20 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN110633409B (zh) * | 2018-06-20 | 2023-06-09 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN108984521A (zh) * | 2018-06-20 | 2018-12-11 | 国家计算机网络与信息安全管理中心 | 一种新闻事件中人物观点抽取方法 |
CN109284500A (zh) * | 2018-08-20 | 2019-01-29 | 张连祥 | 基于招商工作流程和阅读偏好的信息推送系统及方法 |
CN109657074B (zh) * | 2018-09-28 | 2023-11-10 | 北京信息科技大学 | 基于地址树的新闻知识图谱构建方法 |
CN110135457B (zh) * | 2019-04-11 | 2021-04-06 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN111241302B (zh) * | 2020-01-15 | 2023-09-15 | 北京百度网讯科技有限公司 | 职位信息图谱生成方法、装置、设备和介质 |
CN111522915A (zh) * | 2020-04-20 | 2020-08-11 | 北大方正集团有限公司 | 中文事件的抽取方法、装置、设备及存储介质 |
CN111611379A (zh) * | 2020-05-18 | 2020-09-01 | 深圳证券信息有限公司 | 一种文本信息分类方法、装置、设备及可读存储介质 |
CN112307364B (zh) * | 2020-11-25 | 2021-10-29 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112926304B (zh) * | 2021-04-06 | 2021-11-09 | 数库(上海)科技有限公司 | 判断新闻中主要关联公司的方法及相关设备 |
CN112989031B (zh) * | 2021-04-28 | 2021-08-03 | 成都索贝视频云计算有限公司 | 基于深度学习的广播电视新闻事件要素抽取方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617213A (zh) * | 2013-11-19 | 2014-03-05 | 北京奇虎科技有限公司 | 识别新闻网页属性特征的方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5620814B2 (ja) * | 2010-12-28 | 2014-11-05 | ヤフー株式会社 | トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム |
KR101565759B1 (ko) * | 2011-10-07 | 2015-11-06 | 한국전자통신연구원 | 토픽 템플릿과 연관어에 기반한 관련토픽 및 경쟁토픽 탐지 시스템, 탐지 방법 및 탐지 장치 |
CN103218412B (zh) * | 2013-03-26 | 2016-12-07 | 亿赞普(北京)科技有限公司 | 舆情信息处理方法与装置 |
CN103473263B (zh) * | 2013-07-18 | 2017-02-08 | 大连理工大学 | 一种面向新闻事件演变过程的可视化展现方法 |
-
2014
- 2014-11-14 CN CN201410645944.4A patent/CN104408093B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617213A (zh) * | 2013-11-19 | 2014-03-05 | 北京奇虎科技有限公司 | 识别新闻网页属性特征的方法和系统 |
Non-Patent Citations (1)
Title |
---|
Cross-modality based celebrity face naming for news image collections;Su X, et al;《Multimedia Tools and Applications》;20130822;第2页-第3页第1节,第6页-第7页第3.1节,图2 * |
Also Published As
Publication number | Publication date |
---|---|
CN104408093A (zh) | 2015-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN107239440B (zh) | 一种垃圾文本识别方法和装置 | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
El-Halees | Mining opinions in user-generated contents to improve course evaluation | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN108763212A (zh) | 一种地址信息提取方法及装置 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Joshi et al. | Distributed word representations improve ner for e-commerce | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
CN104123336B (zh) | 深度玻尔兹曼机模型及短文本主题分类系统和方法 | |
CN106095758B (zh) | 一种基于词向量模型的文学作品竞猜方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |