CN104156352A - 一种中文事件的处理方法及系统 - Google Patents
一种中文事件的处理方法及系统 Download PDFInfo
- Publication number
- CN104156352A CN104156352A CN201410403486.3A CN201410403486A CN104156352A CN 104156352 A CN104156352 A CN 104156352A CN 201410403486 A CN201410403486 A CN 201410403486A CN 104156352 A CN104156352 A CN 104156352A
- Authority
- CN
- China
- Prior art keywords
- template
- candidate
- trigger word
- entity
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000001914 filtration Methods 0.000 claims description 57
- 230000009466 transformation Effects 0.000 claims description 20
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000001960 triggered effect Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 description 16
- 241000894007 species Species 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 150000001875 compounds Chemical class 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241001632427 Radiola Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000366 juvenile effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种中文事件的处理方法及系统,方法包括:对原始文本内文档的语句进行分析,得到依存和句法文档集合;依据事件抽取请求数据抽取种子事件模板,得到种子事件模板集合;在依存和句法文档集合中,依据触发词选取规则选择候选触发词,得到候选触发词集合;依据依存和句法文档集合中依存关系信息,将候选触发词集合的候选触发词与其所属语句中的实体进行两两组合,得到多个候选事件模板,所有候选事件模板组成候选事件模板集合;依据语义信息集合及种子事件模板集合,对候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;对过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种中文事件的处理方法及系统。
背景技术
中文事件是表示信息的文字数据对象,是一种特定人、物、事在特定事件和特定地点相互作用的客观事实,也成为自然事件。目前,对事件进行抽取的方案中,通常采用半监督的事件抽取方案,其过程为:标注少量的事件为种子模板,然后从未标注的海量文本中根据匹配词判断等方法抽取候选事件模板,计算每个候选事件模板和种子模板的相似度,选择相似度最高的候选事件模板加入种子模板,依次不断重复选取候选事件模板再确定相似度最高的种子模板这一步骤,直到满足预设条件,最后,将与种子模板相匹配的语句即事件均会被抽取出来,完成事件的抽取。
上述方案中,在抽取候选事件模板的过程中,通常会抽取出大量的候选事件模板,使得最终抽取到的事件中存在大量的假事件,影响事件抽取的效率及准确率。
发明内容
本发明的目的在于提供一种中文事件的处理方法,用以解决现有技术中的抽取候选事件模板的过程中,通常会抽取出大量的候选事件模板,使得最终抽取到的事件中存在大量的假事件,影响事件抽取的效率及准确率的技术问题。
本发明提供了一种中文事件的处理方法,包括:
对原始文本内每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;
依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;
在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;
依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;
依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;
对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
上述方法,优选的,所述依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,包括:
依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,获取多个种子事件语句,组成种子事件第一集合,所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型;
对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合;
对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型;
依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
上述方法,优选的,依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,包括:
将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型;
将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
上述方法,优选的,所述依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合,包括:
获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;
将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;
在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;
在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;
获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;
在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;
在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;
在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;
在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;
在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
上述方法,优选的,所述对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合,包括:
在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换;
在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换;
在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
本发明还提供了一种中文事件的处理系统,包括:
文档分析单元,用于对原始文本中每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;
种子模板抽取单元,用于依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;
触发词选取单元,用于在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;
候选模板获取单元,用于依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;
模板过滤单元,用于依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;
模板转换单元,用于对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
上述系统,优选的,所述种子模板抽取单元包括:
语句获取子单元,用于依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,获取多个种子事件语句,组成种子事件第一集合,所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型;
语句分析子单元,用于对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合;
语句标注子单元,用于对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型;
模板获取子单元,用于依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
上述系统,优选的,所述候选模板获取单元包括:
候选词组合子单元,用于将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型;
路径加入子单元,用于将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
上述系统,优选的,所述模板过滤单元包括:
次数获取子单元,用于获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;
频率获取子单元,用于将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;
第一过滤子单元,用于在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;
第二过滤子单元,用于在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;
相似度获取子单元,用于获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;
第三过滤子单元,用于在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;
第四过滤子单元,用于在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;
第五过滤子单元,用于在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;
第六过滤子单元,用于在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;
第七过滤子单元,用于在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
上述系统,优选的,所述模板转换单元包括:
第一转换子单元,用于在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换;
第二转换子单元,用于在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换;
第三转换子单元,用于在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
由上述方案可知,本发明提供的一种中文事件的处理方法与系统,在按照事件抽取请求数据抽取到种子事件模板以得到种子事件模板集合之后,在经过文档语句分析之后得到的依存和句法文档集合中,选取候选触发词进而得到候选事件模板,该候选事件模板中的结构与种子事件模板中的结构相一致,进而利用预设的语义信息集合中的多个语义关系,对候选事件模板进行相应满足模板删除规则的模板进行删除,完成对候选事件模板的过滤,最后再进行候选事件模板的语句结构转换,得到可以作为选取种子事件模板的候选事件模板,实现本发明目的。本发明在实现候选事件模板过滤转换过程中,利用多种语义关系对候选事件模板进行过滤,明显能够过滤掉大量的假事件模板,从而提高在后续操作中从这些候选事件模板中选取到的种子事件的效率准确率,进而提高最终抽取到的事件的效率及准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种中文事件的处理方法实施例一的流程图;
图2为本发明提供的一种中文事件的处理方法实施例二的部分流程图;
图3为本发明提供的一种中文事件的处理方法实施例三的部分流程图;
图4为本发明提供的一种中文事件的处理方法实施例四的部分流程图;
图5为本发明提供的一种中文事件的处理方法实施例五的部分流程图;
图6~图8分别为本发明实施例的应用示例图;
图9为本发明提供的一种中文事件的处理系统实施例六的结构示意图;
图10为本发明提供的一种中文事件的处理系统实施例七的部分结构示意图;
图11为本发明提供的一种中文事件的处理系统实施例八的部分结构示意图;
图12为本发明提供的一种中文事件的处理系统实施例九的部分结构示意图;
图13为本发明提供的一种中文事件的处理系统实施例十的部分结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,为本发明提供的一种中文事件的处理方法实施例一的流程图,其中,所述方法用于在原始文本中选取候选事件模板,以能够作为种子事件模板的抽取基础,本实施例在实现过程中可以包括有以下步骤:
步骤101:对原始文本内每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合。
其中,所述原始文本是指需要抽取事件信息的文本,是没有任何标记信息的文本文件集合。所述步骤101中在实现对该原始文本内每个文档的语句分析时,可以调用分词工具、实体识别工具、句法分析工具和依存关系分析工具进行词语切分、实体识别、句法分析及依存关系分析等操作,实现分析功能。
需要说明的是,这里的分词工具、实体识别工具、句法分析工具和依存关系分析工具等,是自然语言处理技术中通用的工具,如:分词工具为ICTCLAS,实体识别工具Stanford NER、句法分析工具和依存关系分析工具均为Stanford Parser。
具体的,所述步骤101在实现过程中,具体可以有以下实现方式:
首先,对所述原始文本中每个文档的句子(语句)以“。”、“!”和“?”为分隔符进行分句,并对所述每个分句后句子调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
例如,句子“真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。”经过词语切分后为:
例1:真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。
其次,调用实体识别工具从所述第一文档集合的每个文档中识别实体并进行标注,得到第二文档集合。所述第二文档集合中每个实体标注格式为“实体/实体类型”。
例2:真主党/ORG用飞弹/WEA攻击以色列/GPE奇巴农场/LOC,并且造成了3名/NUM以色列/GPE士兵/PER受伤。
其中,“ORG”、“WEA”、“GPE”、“LOC”、“NUM”和“PER”分别表示的实体类别是组织机构、武器装备、政治性实体、位置、数量和人。除此之外,常用的实体类别还有“TIME”、“JOB”、“FAC”和“VEH”等,分别表示时间、工作岗位、场所和交通工具等。
再次,对所述第二文档集合中每个文档调用句法分析工具对所述文档中的每个句子进行句法分析,得到句法文档集合。
例2经过句法分析后得到的句法结构如例3所示:
例3:((IP(NP(NR真主党))(VP(VP(PP(P用)(NP(NN飞弹)))(VP(VV攻击)(NP(NR以色列)(NR奇巴农场))))(PU,)(CC并且)(VP(VV造成)(AS了)(NP(CD 3名)(NR以色列)(NN士兵))(IP(VP(VV受伤)))))(PU。)))
其中,句法分析是指对句子中的词语语法功能进行分析。“NR”、“P”、“NN”、“VV”、“PU”、“CC”、“AS”和“CD”分别是句法分析后的标签,分别表示专用名词、介词、普通名词、普通动词、标点符号、连词、时态词和数量词;“NP”、“VP”、“PP”和“IP”分别表示名词性短语、动词性短语、介词性短语和子句。
最后,对所述句法文档集合中每个文档调用依存关系分析工具对所述文档中的每个句子进行依存分析,得到标注了实体、句法结构和依存关系的依存和句法文档集合。
例3经过自动依存分析后,得到的结果部分如例4所示:
例4:nsubj(攻击-4,真主党-1);prep(攻击-4,用-2);pobj(用-2,飞弹-3);nn(奇巴农场-6,以色列-5);dobj(攻击-4,奇巴农场-6);cc(攻击-4,并且-8);dep(攻击-4,造成-9);asp(造成-9,了-10);nummod(士兵-13,3名-11);nn(士兵-13,以色列-12);nsubj(受伤-14,士兵-13);ccomp(造成-9,受伤-14)
其中,“nn”,“nsubj”、“dobj”、“cc”、“conj”、“asp”、“numod”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具输出的关系标签,分别表示并列名词、主谓关系、直接宾语、连接关系、联合关系、数量修饰、时态标词、从句补语、介词宾语、其它关系和介词关系。依存关系由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组,如“nsubj(攻击-3,真主党-1)”,表示支配成分“真主党”是受支配成分“攻击”的形式主语。词语后面的数字表示该词语在句子中的序号。
步骤102:依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合。
其中,所述事件抽取请求数据中包含有:表明用户需要抽取的事件的定义和标注的少量样本信息。例如,所述步骤102中得到的种子事件模板集合中的每个种子事件模板中包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径,例如:
<打,VV,少年,PER,nsubj>
<打,VV,中年妇女,PER,dobj>
<打,VV,棒,WEA,perp->dep>
步骤103:在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合。
其中,所述触发词选取规则可以为:选取词性标注为“NN”(名词)或“VV”(动词)的词作为候选触发词。由此,所述步骤103的实现过程可以为:从所述依存和句法文档集合中,选择词性标注为“NN”(名词)或“VV”(动词)的词作为候选触发词,加入候选触发词集合。所述候选触发词集合中的每一个候选触发词项包括:
<候选触发词><标注了实体、句法结构和依存关系的候选触发词所在句子>
由于在中文中绝大多数事件触发词是动词或名词,所以本发明实施例选择动词和名词作为候选触发词。
例如,例3句子中有5个候选触发词“飞弹”、“攻击”、“造成”、“士兵”和“受伤”。
步骤104:依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合。
其中,所述候选事件模板中的数据结构与所述种子事件模板中的数据结构一致。
步骤105:依据预设的语义信息集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合。
其中,所述语义信息集合中包括有多个语义关系,如候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度、相邻词的实体关系等等,相应的,所述模板删除规则与所述语义信息集合相对应,为:对具有所述语义信息集合中相应语句关系的候选事件模板进行过滤性删除,以过滤掉满足模板删除规则的假事件,最终得到过滤后的候选事件模板集合,即过滤模板集合。
步骤106:对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
其中,所述步骤106中是指对所述过滤模板集合中的每个候选事件模板按照预设的语句结构转换规则进行结构转换,使得最终候选事件模板集合中的候选事件模板均具有一致的语句结构,便于进行候选的候选事件模板的选取并加入种子事件模板集合,以提高最终以这些种子事件模板进行用户所需要的事件抽取时,提高事件抽取的效率及准确率。
由上述方案可知,本发明提供的一种中文事件的处理方法实施例一,在按照事件抽取请求数据抽取到种子事件模板以得到种子事件模板集合之后,在经过文档语句分析之后得到的依存和句法文档集合中,选取候选触发词进而得到候选事件模板,该候选事件模板中的结构与种子事件模板中的结构相一致,进而利用预设的语义信息集合中的多个语义关系,对候选事件模板进行相应满足模板删除规则的模板进行删除,完成对候选事件模板的过滤,最后再进行候选事件模板的语句结构转换,得到可以作为选取种子事件模板的候选事件模板,实现本实施例目的。本实施例在实现候选事件模板过滤转换过程中,利用多种语义关系对候选事件模板进行过滤,明显能够过滤掉大量的假事件模板,从而提高在后续操作中从这些候选事件模板中选取到的种子事件的效率准确率,进而提高最终抽取到的事件的效率及准确率。
参考图2,为本发明提供的一种中文事件的处理方法实施例二中上述步骤102的实现流程图,其中,上述步骤102可以包括以下步骤:
步骤121:依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,获取多个种子事件语句,组成种子事件第一集合。
其中,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合。而所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型。
例如,所述事件抽取请求数据中需要抽取的每类事件的目标事件信息,可以如下:
<事件类型>
<事件角色R1,实体类型集合E1>
<事件角色R2,实体类型集合E2>
……
<事件角色Rn,实体类型集合En>
例如,攻击事件的基本信息如下:
<Attack(攻击事件)>
<Attacker(攻击者),GPE/ORG/PER>
<Target(攻击目标),PER/ORG/GPE/LOC/FAC>
<Time(攻击时间),TIME>
<Place(攻击地点),LOC/FAC>
<Instrument(攻击武器),WEA>
而所述种子事件第一集合中的种子事件语句的个数可以为每种事件类型各对应20个左右。其中,所述种子事件语句在获取的过程中,可以通过对相应语句进行标注,以得到每类事件被标注的多个种子事件语句,在种子事件语句中,标注的信息包括有:事件触发词、各个事件角色对应的实体及其实体类型等信息。
例如,一个攻击种子事件的例子如下:
例5:<9日早上,Time:TIME>一个穿白色衣服的<少年,Attacker:PER>在<大街,Place:LOC>上用<棒,Instrument:WEA><打,Anchor:Attack>了一个<中年妇女,Target:PER>。
其中,“Anchor:Attack”表示事件的触发词,其类型是“Attack”(攻击);“Time:TIME”表示其角色是“Time”(攻击时间),实体类型是“TIME”,其它角色的标注类似。
步骤122:对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合。
具体的,所述步骤122可以通过分别调用分词工具、句法分析工具和依存关系分析工具等进行语句切分、句法分析和依存关系分析,对所述种子事件第一集合中的每个种子事件语句进行分析(信息标注),得到标注有语法结构和依存关系的种子事件,以组成种子事件第二集合。
例如,例5的句法结构如下:
例6:((IP(NP(CP(IP(NP(NT 9日早上))(NP(NN一个))(VP(VV穿)(NP(ADJP(JJ白色))(NP(NN衣服)))))(DEC的))(NP(NN少年)))(VP(PP(P在)(LCP(NP(NN大街))(LC上)))(PP(P用)(CLP(M棒)))(VP(VV打)(AS了)(NP(NN一个)(NN中年妇女))))(PU。)))
例6的依存关系部分如下:
例7:nsubj(打-13,少年-7),prep(打-13,用-11),dep(用-11,棒-12),dobj(打-13,中年妇女-16)
步骤123:对所述第二种子事件集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,生成所述第二种子事件集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型。
步骤124:依据所述第二种子事件集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
需要说明的是,由于事件角色时间和地点基本上是各种类型时间都具有的角色,而且它们和触发词的关系比较松散,所以在实际生成种子模板时,不抽取这两类角色对应的实体和触发词构成的种子事件模板。
例如,例5的种子事件构成的种子事件模板有3个:
例:8:<打,VV,少年,PER,nsubj>
<打,VV,中年妇女,PER,dobj>
<打,VV,棒,WEA,perp->dep>
其中,例8中的信息主要来自于例5、例6和例7的标注实体、句法结构和依存关系。另外,依存路径是任意两个结点之间通过依存关系建立的路径。
参考图3,为本发明提供的一种中文事件的处理方法实施例三中所述步骤104的实现流程图,其中,所述步骤104可以包括有以下步骤实现:
步骤141:将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型。
步骤142:将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
其中,依存路径是任意两个结点之间通过依存关系建立的路径。如例4中候选触发词“攻击”和实体“飞弹”之间的依存路径是“prep->pobj”(根据依存关系prep(攻击-4,用-2)和pobj(用-2,飞弹-3)得到),候选触发词“攻击”和实体“士兵”之间的依存路径是“dep->ccomp->nubj”。
由于例4对应的句子中有7个实体,所以一共有7*5=35个候选事件模板被抽取,每个触发词对应7个候选事件模板。如候选触发词“攻击”和其中的一个实体“士兵”构成的模板如下:
例9:<攻击,VV,士兵,PER,dep->ccomp->nubj>
基于模板的半监督事件抽取方法就是比较候选事件模板和种子事件模板的相似度,选择相似度高的候选事件模板加入种子事件模板,不断重复以上过程直到某个条件满足为止。那么,所有可以用种子事件模板匹配的句子就对应相应事件。如例5所示的模板为种子事件模板时,那么就可以从句子“真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。”中抽取一个触发词为“攻击”的攻击类型事件(该句子有相同的候选事件模板)。
由前文中可知,所述语义信息集合中包括有多个语义关系,如候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度、相邻词的实体关系等等,相应的,所述模板删除规则与所述语义信息集合相对应,可以为:删除候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度或相邻词的实体关系等满足预设关系类型的候选事件模板,由此,参考图4,为本发明提供的一种中文事件的处理方法实施例四中所述步骤105的实现流程图,其中,所述步骤105可以有以下步骤实现:
步骤151:获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数。
步骤152:将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率。
步骤153:在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合。
其中,所述步骤151~所述步骤153中是指,统计所述候选事件模板集合中每个候选事件模板中的候选触发词在所有原始文本中的出现次数,把所述出现次数除以原始文本中文档的数目,得到每个所述候选触发词的文档频率;把所述文档频率大于第一阈值的所有候选触发词所在的候选事件模板从所述候选事件模板集合中删除,得到第一模板集合。
例如,例3句子中5个候选触发词中的“造成”是一个常用词,导致其文档频率较高,大于第一阈值,所以,候选触发词中“造成”对应的7个候选事件模板都从所述候选事件模板集合中删除。
此过滤方法的依据是常用词(如:是、表示、计划等)不会是某个特定类型事件的触发词。
步骤154:在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合。
其中,所述步骤154是指:对在所述第一模板集合中的每个候选事件模板,如果所述候选事件模板中的候选触发词词性为名词且是实体,则从所述第一模板集合中删除所述候选事件模板,得到第二模板集合。
例如,例3句子中5个候选触发词中的“士兵”是一个实体,所以候选触发词中“士兵”对应的7个候选事件模板都从所述第一模板集合中删除。
此过滤方法的依据是实体不可以作为事件的触发词。
步骤155:获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值。
步骤156:在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合。
其中,所述步骤155~所述步骤156是指:计算所述第二模板集合中的每个候选事件模板的候选触发词和所述种子模板集合中的每个种子事件模板的种子触发词之间的语义相似度;如果所述候选触发词和每个所述种子触发词之间的语义相似度均小于第二阈值,则从所述第二模板集合中删除所述候选触发词所在的候选事件模板,得到第三模板集合;
其中,候选触发词t和种子触发词a的语义相似度Sim(t,a)定义如下:
SimT(t,a)=α/(α+d)
本发明采用HowNet的语义距离来计算词汇的相似度。D为候选触发词t和种子触发词a在HowNet中的路径距离,通过调用HowNet提供的函数获得。α是一个可调节的参数,本发明设置为1.6。
例如,例3句子中5个候选触发词中的“飞弹”和所有种子事件触发词的语义相似度都小于第二阈值,所以候选触发词中“飞弹”对应的7个候选事件模板都从第二模板集合中删除。
此过滤方法的依据是相同类型的事件应该有语义相似的触发词。
步骤157:在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合。
其中,所述步骤157是指:对在所述第三模板集合中的每个候选事件模板,如果所述候选事件模板中的实体类型不属于需要抽取事件的任意一个事件角色对应的实体类型集合,则从所述第三模板集合中删除所述候选事件模板,得到第四模板集合。
例如,例2中的实体“3名”的实体类型是“NUM”(数量词),和攻击事件的各个事件角色对应的实体类型不符,从第三模板集合中删除包含所述实体的2个候选事件模板(还有2个候选触发词)。
步骤158:在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合。
其中,所述步骤158是指:对在所述第四模板集合中的每个候选事件模板中的实体,如果在句子中所述实体的后面一个词同样是一个实体,则从所述第四模板集合中删除所述实体所在的候选事件模板,得到第五模板集合;
例如,例2中的“以色列/GPE奇巴农场/LOC”和“3名/NUM以色列/GPE士兵/PER”都有连续多个实体,那么一般只有最后一个实体(即“奇巴农场”和“士兵”)才能填充事件的角色。所以,删除第四模板集合中包含2个“以色列”的4个候选事件模板(“3名”对应的2个候选事件模板已经在上一步被删除)。
步骤159:在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合。
其中,所述步骤159是指:对在所述第五模板集合中的每个候选事件模板中的候选触发词和实体间的依存路径,如果所述依存路径长度大于第三阈值,则把所述候选模板从第五模板集合中删除,得到第六模板集合;
其中,所述依存路径长度为在依存路径中依存关系的个数。
依存路径长度过长说明候选触发词和实体间的关系较为松散,无法作为事件抽取的模板。如设置的第三阈值为8,那么依存路径长度大于8的所有候选事件模板将被删除。如“nn->ccomp->nsubj->nn->nn->rcmod->cc->dep->nn”的长度为9,其对应的候选事件模板将被删除。
步骤160:在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
其中,所述步骤160是指,对在所述第六模板集合中的每个候选事件模板中的候选触发词,如果所述候选触发词和处于同一句子的其它词具有主谓(依存关系是nsubj)或谓宾关系(依存关系是dobj),并且所述其它词不是实体,则把所述候选触发词所在的候选事件模板从所述第六模板集合中删除,得到过滤模板集合;
其中,“nsubj”和“dobj”是Standford依存分析工具输出的关系标签,分别表示主谓关系和直接宾语关系。
例如,在攻击事件中,触发词“打”的宾语一般为人(“PER”)。在句子“我/PER和朋友/PER打球。”中,候选触发词“打”的宾语(球)不是一个“PER”类型的实体,则删除所有在第六模板集合中由候选触发词“打”构成的宾语不是实体的所有候选事件模板。
参考图5,为本发明提供的一种中文事件的处理方法实施例五中所述步骤106的实现流程图,其中,所述步骤106可以包括有以下步骤:
步骤161:在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换。
其中,所述步骤161是指,对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词和所在句子中的“被”存在“pass”(被动关系)依存关系(被动句),则进行如下转换:
a、如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubjpass”(被动主语),则所述候选触发词和实体间的依存路径转换为“dobj”;
b、如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubj”,并且所述实体在句子中出现在“被”前面,则所述候选触发词和实体间的依存路径转换为“dobj”。
其中,“pass”和“nsubjpass”是Standford依存分析工具输出的关系标签,分别表示被动关系和主谓被动关系。
一个被动句中候选触发词和实体之间依存关系转换的例子如图6所示。
步骤162:在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换。
其中,所述步骤162是指,对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词和所在句子中的“把”(或“将”)存在“ba”(“把”动关系)依存关系(“把”字句),则进行如下转换:如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubj”,并且所述实体在句子中出现在“把”(或“将”)后面,则所述候选触发词和实体间的依存路径转换为“dobj”。
其中,“ba”是Standford依存分析工具输出的关系标签,表示“把”和谓语的“把”动关系。
一个“把”字句中候选触发词和实体之间依存关系转换的例子如图7所示。
步骤163:在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
其中,所述步骤163是指:对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词在句子中的后一个词是“的”(“的”字结构句),则进行如下转换:
c、当所述候选事件模板中的候选触发词和实体间的依存路径为“rcmod”(相关子句),并且所述实体在句子中出现在“的”的后面时,如果存在依存关系“pass(候选触发词,“被”)”,则将所述候选触发词和实体间的依存路径转换为“dobj”;如果不存在,则将所述候选触发词和实体间的依存路径转换为“nsubj”;
d、当“的”的后一个词不是实体,所述候选触发词前面存在动词“是”并且所述候选事件模板中的实体和“是”存在依存关系“top”(主系)时,如果存在依存关系“pass(候选触发词,“被”)”,则将所述候选触发词和实体间的依存路径转换为“dobj”;如果不存在,则将所述候选触发词和实体间的依存路径转换为“nsubj”。
其中,“rcmod”和“top”是Standford依存分析工具输出的关系标签,分别表示相关子句关系和主系关系。
一个“的”字结构句中候选触发词和实体之间依存关系转换的例子如图8所示。
参考图9,为本发明提供的一种中文事件的处理系统实施例六的结构示意图,其中,所述系统用于在原始文本中选取候选事件模板,以能够作为种子事件模板的抽取基础,本实施例在实现过程中可以包括有以下结构:
文档分析单元901,用于对原始文本中每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合。
其中,所述原始文本是指需要抽取事件信息的文本,是没有任何标记信息的文本文件集合。所述文档分析单元901中在实现对该原始文本内每个文档的语句分析时,可以调用分词工具、实体识别工具、句法分析工具和依存关系分析工具进行词语切分、实体识别、句法分析及依存关系分析等操作,实现分析功能。
需要说明的是,这里的分词工具、实体识别工具、句法分析工具和依存关系分析工具等,是自然语言处理技术中通用的工具,如:分词工具为ICTCLAS,实体识别工具Stanford NER、句法分析工具和依存关系分析工具均为Stanford Parser。
具体的,所述文档分析单元901在实现过程中,具体可以有以下实现方式:
首先,对所述原始文本中每个文档的句子(语句)以“。”、“!”和“?”为分隔符进行分句,并对所述每个分句后句子调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
例如,句子“真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。”经过词语切分后为:
例1:真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。
其次,调用实体识别工具从所述第一文档集合的每个文档中识别实体并进行标注,得到第二文档集合。所述第二文档集合中每个实体标注格式为“实体/实体类型”。
例2:真主党/ORG用飞弹/WEA攻击以色列/GPE奇巴农场/LOC,并且造成了3名/NUM以色列/GPE士兵/PER受伤。
其中,“ORG”、“WEA”、“GPE”、“LOC”、“NUM”和“PER”分别表示的实体类别是组织机构、武器装备、政治性实体、位置、数量和人。除此之外,常用的实体类别还有“TIME”、“JOB”、“FAC”和“VEH”等,分别表示时间、工作岗位、场所和交通工具等。
再次,对所述第二文档集合中每个文档调用句法分析工具对所述文档中的每个句子进行句法分析,得到句法文档集合。
例2经过句法分析后得到的句法结构如例3所示:
例3:((IP(NP(NR真主党))(VP(VP(PP(P用)(NP(NN飞弹)))(VP(VV攻击)(NP(NR以色列)(NR奇巴农场))))(PU,)(CC并且)(VP(VV造成)(AS了)(NP(CD 3名)(NR以色列)(NN士兵))(IP(VP(VV受伤)))))(PU。)))
其中,句法分析是指对句子中的词语语法功能进行分析。“NR”、“P”、“NN”、“VV”、“PU”、“CC”、“AS”和“CD”分别是句法分析后的标签,分别表示专用名词、介词、普通名词、普通动词、标点符号、连词、时态词和数量词;“NP”、“VP”、“PP”和“IP”分别表示名词性短语、动词性短语、介词性短语和子句。
最后,对所述句法文档集合中每个文档调用依存关系分析工具对所述文档中的每个句子进行依存分析,得到标注了实体、句法结构和依存关系的依存和句法文档集合。
例3经过自动依存分析后,得到的结果部分如例4所示:
例4:nsubj(攻击-4,真主党-1);prep(攻击-4,用-2);pobj(用-2,飞弹-3);nn(奇巴农场-6,以色列-5);dobj(攻击-4,奇巴农场-6);cc(攻击-4,并且-8);dep(攻击-4,造成-9);asp(造成-9,了-10);nummod(士兵-13,3名-11);nn(士兵-13,以色列-12);nsubj(受伤-14,士兵-13);ccomp(造成-9,受伤-14)
其中,“nn”,“nsubj”、“dobj”、“cc”、“conj”、“asp”、“numod”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具输出的关系标签,分别表示并列名词、主谓关系、直接宾语、连接关系、联合关系、数量修饰、时态标词、从句补语、介词宾语、其它关系和介词关系。依存关系由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组,如“nsubj(攻击-3,真主党-1)”,表示支配成分“真主党”是受支配成分“攻击”的形式主语。词语后面的数字表示该词语在句子中的序号。
种子模板抽取单元902,用于依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合。
其中,所述事件抽取请求数据中包含有:表明用户需要抽取的事件的定义和标注的少量样本信息。例如,所述种子模板抽取单元902中得到的种子事件模板集合中的每个种子事件模板中包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径,例如:
<打,VV,少年,PER,nsubj>
<打,VV,中年妇女,PER,dobj>
<打,VV,棒,WEA,perp->dep>
触发词选取单元903,用于在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合。
其中,所述触发词选取规则可以为:选取词性标注为“NN”(名词)或“VV”(动词)的词作为候选触发词。由此,所述触发词选取单元903的实现过程可以为:从所述依存和句法文档集合中,选择词性标注为“NN”(名词)或“VV”(动词)的词作为候选触发词,加入候选触发词集合。所述候选触发词集合中的每一个候选触发词项包括:
<候选触发词><标注了实体、句法结构和依存关系的候选触发词所在句子>
由于在中文中绝大多数事件触发词是动词或名词,所以本发明实施例选择动词和名词作为候选触发词。
例如,例3句子中有5个候选触发词“飞弹”、“攻击”、“造成”、“士兵”和“受伤”。
候选模板获取单元904,用于依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合。
其中,所述候选事件模板中的数据结构与所述种子事件模板中的数据结构一致。
模板过滤单元905,用于依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合。
其中,所述语义信息集合中包括有多个语义关系,如候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度、相邻词的实体关系等等,相应的,所述模板删除规则与所述语义信息集合相对应,为:对具有所述语义信息集合中相应语句关系的候选事件模板进行过滤性删除,以过滤掉满足模板删除规则的假事件,最终得到过滤后的候选事件模板集合,即过滤模板集合。
模板转换单元906,用于对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
其中,所述模板转换单元906是指对所述过滤模板集合中的每个候选事件模板按照预设的语句结构转换规则进行结构转换,使得最终候选事件模板集合中的候选事件模板均具有一致的语句结构,便于进行候选的候选事件模板的选取并加入种子事件模板集合,以提高最终以这些种子事件模板进行用户所需要的事件抽取时,提高事件抽取的效率及准确率。
由上述方案可知,本发明提供的一种中文事件的处理系统实施例六,在按照事件抽取请求数据抽取到种子事件模板以得到种子事件模板集合之后,在经过文档语句分析之后得到的依存和句法文档集合中,选取候选触发词进而得到候选事件模板,该候选事件模板中的结构与种子事件模板中的结构相一致,进而利用预设的语义信息集合中的多个语义关系,对候选事件模板进行相应满足模板删除规则的模板进行删除,完成对候选事件模板的过滤,最后再进行候选事件模板的语句结构转换,得到可以作为选取种子事件模板的候选事件模板,实现本实施例目的。本实施例在实现候选事件模板过滤转换过程中,利用多种语义关系对候选事件模板进行过滤,明显能够过滤掉大量的假事件模板,从而提高在后续操作中从这些候选事件模板中选取到的种子事件的效率准确率,进而提高最终抽取到的事件的效率及准确率。
参考图10,为本发明提供的一种中文事件的处理系统实施例七中所述种子模板抽取单元902的结构示意图,其中,所述种子模板抽取单元902可以包括以下结构:
语句获取子单元921,用于依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,获取多个种子事件语句,组成种子事件第一集合。
其中,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,而所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型。
例如,所述事件抽取请求数据中需要抽取的每类事件的目标事件信息,可以如下:
<事件类型>
<事件角色R1,实体类型集合E1>
<事件角色R2,实体类型集合E2>
……
<事件角色Rn,实体类型集合En>
例如,攻击事件的基本信息如下:
<Attack(攻击事件)>
<Attacker(攻击者),GPE/ORG/PER>
<Target(攻击目标),PER/ORG/GPE/LOC/FAC>
<Time(攻击时间),TIME>
<Place(攻击地点),LOC/FAC>
<Instrument(攻击武器),WEA>
而所述种子事件第一集合中的种子事件语句的个数可以为每种事件类型各对应20个左右。其中,所述种子事件语句在获取的过程中,可以通过对相应语句进行标注,以得到每类事件被标注的多个种子事件语句,在种子事件语句中,标注的信息包括有:事件触发词、各个事件角色对应的实体及其实体类型等信息。
例如,一个攻击种子事件的例子如下:
例5:<9日早上,Time:TIME>一个穿白色衣服的<少年,Attacker:PER>在<大街,Place:LOC>上用<棒,Instrument:WEA><打,Anchor:Attack>了一个<中年妇女,Target:PER>。
其中,“Anchor:Attack”表示事件的触发词,其类型是“Attack”(攻击);“Time:TIME”表示其角色是“Time”(攻击时间),实体类型是“TIME”,其它角色的标注类似。
语句分析子单元922,用于对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合。
具体的,所述语句分析子单元922可以通过分别调用分词工具、句法分析工具和依存关系分析工具等进行语句切分、句法分析和依存关系分析,对所述种子事件第一集合中的每个种子事件语句进行分析(信息标注),得到标注有语法结构和依存关系的种子事件,以组成种子事件第二集合。
例如,例5的句法结构如下:
例6:((IP(NP(CP(IP(NP(NT 9日早上))(NP(NN一个))(VP(VV穿)(NP(ADJP(JJ白色))(NP(NN衣服)))))(DEC的))(NP(NN少年)))(VP(PP(P在)(LCP(NP(NN大街))(LC上)))(PP(P用)(CLP(M棒)))(VP(VV打)(AS了)(NP(NN一个)(NN中年妇女))))(PU。)))
例6的依存关系部分如下:
例7:nsubj(打-13,少年-7),prep(打-13,用-11),dep(用-11,棒-12),dobj(打-13,中年妇女-16)
语句标注子单元923,用于对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型。
模板获取子单元924,用于依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
需要说明的是,由于事件角色时间和地点基本上是各种类型时间都具有的角色,而且它们和触发词的关系比较松散,所以在实际生成种子模板时,不抽取这两类角色对应的实体和触发词构成的种子事件模板。
例如,例5的种子事件构成的种子事件模板有3个:
例:8:<打,VV,少年,PER,nsubj>
<打,VV,中年妇女,PER,dobj>
<打,VV,棒,WEA,perp->dep>
其中,例8中的信息主要来自于例5、例6和例7的标注实体、句法结构和依存关系。另外,依存路径是任意两个结点之间通过依存关系建立的路径。
参考图11,为本发明提供的一种中文事件的处理系统实施例八中所述候选模板获取单元904的结构示意图,其中,所述候选模板获取单元904可以包括以下结构:
候选词组合子单元941,用于将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型。
路径加入子单元942,用于将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
其中,依存路径是任意两个结点之间通过依存关系建立的路径。如例4中候选触发词“攻击”和实体“飞弹”之间的依存路径是“prep->pobj”(根据依存关系prep(攻击-4,用-2)和pobj(用-2,飞弹-3)得到),候选触发词“攻击”和实体“士兵”之间的依存路径是“dep->ccomp->nubj”。
由于例4对应的句子中有7个实体,所以一共有7*5=35个候选事件模板被抽取,每个触发词对应7个候选事件模板。如候选触发词“攻击”和其中的一个实体“士兵”构成的模板如下:
例9:<攻击,VV,士兵,PER,dep->ccomp->nubj>
基于模板的半监督事件抽取方法就是比较候选事件模板和种子事件模板的相似度,选择相似度高的候选事件模板加入种子事件模板,不断重复以上过程直到某个条件满足为止。那么,所有可以用种子事件模板匹配的句子就对应相应事件。如例5所示的模板为种子事件模板时,那么就可以从句子“真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。”中抽取一个触发词为“攻击”的攻击类型事件(该句子有相同的候选事件模板)。
由前文中可知,所述语义信息集合中包括有多个语义关系,如候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度、相邻词的实体关系等等,相应的,所述模板删除规则与所述语义信息集合相对应,可以为:删除候选触发词的词性与实体关系、与种子事件模板中触发词的语义相似度或相邻词的实体关系等满足预设关系类型的候选事件模板,由此,参考图12,为本发明提供的一种中文事件的处理系统实施例九中所述模板过滤单元905的结构示意图,其中,所述模板过滤单元可以包括以下结构:
次数获取子单元951,用于获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数。
频率获取子单元952,用于将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率。
第一过滤子单元953,用于在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合。
其中,所述次数获取子单元951、所述频率获取子单元952及所述第一过滤子单元953是指,统计所述候选事件模板集合中每个候选事件模板中的候选触发词在所有原始文本中的出现次数,把所述出现次数除以原始文本中文档的数目,得到每个所述候选触发词的文档频率;把所述文档频率大于第一阈值的所有候选触发词所在的候选事件模板从所述候选事件模板集合中删除,得到第一模板集合。
例如,例3句子中5个候选触发词中的“造成”是一个常用词,导致其文档频率较高,大于第一阈值,所以,候选触发词中“造成”对应的7个候选事件模板都从所述候选事件模板集合中删除。
此过滤方法的依据是常用词(如:是、表示、计划等)不会是某个特定类型事件的触发词。
第二过滤子单元954,用于在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合。
其中,所述第二过滤子单元954是指:对在所述第一模板集合中的每个候选事件模板,如果所述候选事件模板中的候选触发词词性为名词且是实体,则从所述第一模板集合中删除所述候选事件模板,得到第二模板集合。
例如,例3句子中5个候选触发词中的“士兵”是一个实体,所以候选触发词中“士兵”对应的7个候选事件模板都从所述第一模板集合中删除。
此过滤方法的依据是实体不可以作为事件的触发词。
相似度获取子单元955,用于获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值。
第三过滤子单元956,用于在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合。
其中,所述相似度获取子单元955及所述第三过滤子单元956是指:计算所述第二模板集合中的每个候选事件模板的候选触发词和所述种子模板集合中的每个种子事件模板的种子触发词之间的语义相似度;如果所述候选触发词和每个所述种子触发词之间的语义相似度均小于第二阈值,则从所述第二模板集合中删除所述候选触发词所在的候选事件模板,得到第三模板集合;
其中,候选触发词t和种子触发词a的语义相似度Sim(t,a)定义如下:
SimT(t,a)=α/(α+d)
本发明采用HowNet的语义距离来计算词汇的相似度。D为候选触发词t和种子触发词a在HowNet中的路径距离,通过调用HowNet提供的函数获得。α是一个可调节的参数,本发明设置为1.6。
例如,例3句子中5个候选触发词中的“飞弹”和所有种子事件触发词的语义相似度都小于第二阈值,所以候选触发词中“飞弹”对应的7个候选事件模板都从第二模板集合中删除。
此过滤方法的依据是相同类型的事件应该有语义相似的触发词。
第四过滤子单元957,用于在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合。
其中,所述第四过滤子单元957是指:对在所述第三模板集合中的每个候选事件模板,如果所述候选事件模板中的实体类型不属于需要抽取事件的任意一个事件角色对应的实体类型集合,则从所述第三模板集合中删除所述候选事件模板,得到第四模板集合。
例如,例2中的实体“3名”的实体类型是“NUM”(数量词),和攻击事件的各个事件角色对应的实体类型不符,从第三模板集合中删除包含所述实体的2个候选事件模板(还有2个候选触发词)。
第五过滤子单元958,用于在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合。
其中,所述第五过滤子单元958是指:对在所述第四模板集合中的每个候选事件模板中的实体,如果在句子中所述实体的后面一个词同样是一个实体,则从所述第四模板集合中删除所述实体所在的候选事件模板,得到第五模板集合;
例如,例2中的“以色列/GPE奇巴农场/LOC”和“3名/NUM以色列/GPE士兵/PER”都有连续多个实体,那么一般只有最后一个实体(即“奇巴农场”和“士兵”)才能填充事件的角色。所以,删除第四模板集合中包含2个“以色列”的4个候选事件模板(“3名”对应的2个候选事件模板已经在上一步被删除)。
第六过滤子单元959,用于在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合。
其中,所述第六过滤子单元959是指:对在所述第五模板集合中的每个候选事件模板中的候选触发词和实体间的依存路径,如果所述依存路径长度大于第三阈值,则把所述候选模板从第五模板集合中删除,得到第六模板集合;
其中,所述依存路径长度为在依存路径中依存关系的个数。
依存路径长度过长说明候选触发词和实体间的关系较为松散,无法作为事件抽取的模板。如设置的第三阈值为8,那么依存路径长度大于8的所有候选事件模板将被删除。如“nn->ccomp->nsubj->nn->nn->rcmod->cc->dep->nn”的长度为9,其对应的候选事件模板将被删除。
第七过滤子单元960,用于在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
其中,所述第七过滤子单元960是指,对在所述第六模板集合中的每个候选事件模板中的候选触发词,如果所述候选触发词和处于同一句子的其它词具有主谓(依存关系是nsubj)或谓宾关系(依存关系是dobj),并且所述其它词不是实体,则把所述候选触发词所在的候选事件模板从所述第六模板集合中删除,得到过滤模板集合;
其中,“nsubj”和“dobj”是Standford依存分析工具输出的关系标签,分别表示主谓关系和直接宾语关系。
例如,在攻击事件中,触发词“打”的宾语一般为人(“PER”)。在句子“我/PER和朋友/PER打球。”中,候选触发词“打”的宾语(球)不是一个“PER”类型的实体,则删除所有在第六模板集合中由候选触发词“打”构成的宾语不是实体的所有候选事件模板。
参考图13,为本发明提供的一种中文事件的处理系统实施例十中所述模板转换单元906的结构示意图,其中,所述模板转换单元906可以包括以下结构:
第一转换子单元961,用于在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换。
其中,所述第一转换子单元961是指,对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词和所在句子中的“被”存在“pass”(被动关系)依存关系(被动句),则进行如下转换:
a、如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubjpass”(被动主语),则所述候选触发词和实体间的依存路径转换为“dobj”;
b、如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubj”,并且所述实体在句子中出现在“被”前面,则所述候选触发词和实体间的依存路径转换为“dobj”。
其中,“pass”和“nsubjpass”是Standford依存分析工具输出的关系标签,分别表示被动关系和主谓被动关系。
一个被动句中候选触发词和实体之间依存关系转换的例子如图6所示。
第二转换子单元962,用于在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换;
其中,所述第二转换子单元962是指,对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词和所在句子中的“把”(或“将”)存在“ba”(“把”动关系)依存关系(“把”字句),则进行如下转换:如果所述候选事件模板中的候选触发词和实体间的依存路径为“nsubj”,并且所述实体在句子中出现在“把”(或“将”)后面,则所述候选触发词和实体间的依存路径转换为“dobj”。
其中,“ba”是Standford依存分析工具输出的关系标签,表示“把”和谓语的“把”动关系。
一个“把”字句中候选触发词和实体之间依存关系转换的例子如图7所示。
第三转换子单元963,用于在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
其中,所述第三转换子单元963是指:对所述过滤模板集合中的每个候选事件模板,如果所述候选事件模板的候选触发词在句子中的后一个词是“的”(“的”字结构句),则进行如下转换:
c、当所述候选事件模板中的候选触发词和实体间的依存路径为“rcmod”(相关子句),并且所述实体在句子中出现在“的”的后面时,如果存在依存关系“pass(候选触发词,“被”)”,则将所述候选触发词和实体间的依存路径转换为“dobj”;如果不存在,则将所述候选触发词和实体间的依存路径转换为“nsubj”;
d、当“的”的后一个词不是实体,所述候选触发词前面存在动词“是”并且所述候选事件模板中的实体和“是”存在依存关系“top”(主系)时,如果存在依存关系“pass(候选触发词,“被”)”,则将所述候选触发词和实体间的依存路径转换为“dobj”;如果不存在,则将所述候选触发词和实体间的依存路径转换为“nsubj”。
其中,“rcmod”和“top”是Standford依存分析工具输出的关系标签,分别表示相关子句关系和主系关系。
一个“的”字结构句中候选触发词和实体之间依存关系转换的例子如图8所示。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明所提供的一种中文事件的处理方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种中文事件的处理方法,其特征在于,包括:
对原始文本内每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;
依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;
在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;
依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;
依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;
对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
2.根据权利要求1所述的方法,其特征在于,所述依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,包括:
依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,获取多个种子事件语句,组成种子事件第一集合,所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型;
对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合;
对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型;
依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
3.根据权利要求1所述的方法,其特征在于,依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,包括:
将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型;
将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
4.根据权利要求1所述的方法,其特征在于,所述依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合,包括:
获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;
将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;
在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;
在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;
获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;
在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;
在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;
在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;
在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;
在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合,包括:
在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换;
在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换;
在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
6.一种中文事件的处理系统,其特征在于,包括:
文档分析单元,用于对原始文本中每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;
种子模板抽取单元,用于依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;
触发词选取单元,用于在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;
候选模板获取单元,用于依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;
模板过滤单元,用于依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;
模板转换单元,用于对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。
7.根据权利要求6所述的系统,其特征在于,所述种子模板抽取单元包括:
语句获取子单元,用于依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,获取多个种子事件语句,组成种子事件第一集合,所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型;
语句分析子单元,用于对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合;
语句标注子单元,用于对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型;
模板获取子单元,用于依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
8.根据权利要求6所述的系统,其特征在于,所述候选模板获取单元包括:
候选词组合子单元,用于将所述候选触发词集合中的候选触发词及其所属语句中的实体进行两两组合,得到第二四元组,所述第二四元组中包括候选触发词、候选触发词词性、实体及实体类型;
路径加入子单元,用于将每个所述第二四元组中候选触发词与实体之间的依存路径加入其对应的第二四元组中,构成候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径。
9.根据权利要求6所述的系统,其特征在于,所述模板过滤单元包括:
次数获取子单元,用于获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;
频率获取子单元,用于将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;
第一过滤子单元,用于在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;
第二过滤子单元,用于在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;
相似度获取子单元,用于获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;
第三过滤子单元,用于在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;
第四过滤子单元,用于在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;
第五过滤子单元,用于在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;
第六过滤子单元,用于在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;
第七过滤子单元,用于在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
10.根据权利要求6所述的系统,其特征在于,所述模板转换单元包括:
第一转换子单元,用于在所述过滤模板集合中,对存在词语“被”且存在候选触发词与词语“被”之间具有被动的依存关系的候选事件模板以预设第一转换规则进行语句结构转换;
第二转换子单元,用于在所述过滤模板集合中,对存在词语“把”或“将”且存在候选触发词与词语“把”或“将”之间具有把动依存关系的候选事件模板以预设第二转换规则进行语句结构转换;
第三转换子单元,用于在所述过滤模板集合中,对存在候选触发词的后一个相邻词语为词语“的”的候选事件模板以预设第三转换规则进行语句结构转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410403486.3A CN104156352B (zh) | 2014-08-15 | 2014-08-15 | 一种中文事件的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410403486.3A CN104156352B (zh) | 2014-08-15 | 2014-08-15 | 一种中文事件的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104156352A true CN104156352A (zh) | 2014-11-19 |
CN104156352B CN104156352B (zh) | 2017-04-19 |
Family
ID=51881857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410403486.3A Expired - Fee Related CN104156352B (zh) | 2014-08-15 | 2014-08-15 | 一种中文事件的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104156352B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391836A (zh) * | 2014-11-07 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 处理用于句法分析的特征模板的方法及装置 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
CN106339412A (zh) * | 2016-08-12 | 2017-01-18 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN107766332A (zh) * | 2017-11-27 | 2018-03-06 | 北京深知无限人工智能科技有限公司 | 一种语言模板构建方法及装置 |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN109977391A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团公司 | 一种文本数据的信息抽取方法及装置 |
CN110008445A (zh) * | 2019-03-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 事件抽取方法及装置、电子设备 |
CN110176227A (zh) * | 2018-03-26 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110737821A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 相似事件查询的方法、装置、存储介质和终端设备 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
WO2021033136A1 (en) * | 2019-08-21 | 2021-02-25 | International Business Machines Corporation | Extracting meaning representation from text |
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112818122A (zh) * | 2021-02-02 | 2021-05-18 | 中国科学院信息工程研究所 | 一种面向对话文本的事件抽取方法及系统 |
CN113111661A (zh) * | 2020-01-09 | 2021-07-13 | 图灵人工智能研究院(南京)有限公司 | 文本信息分类方法、系统、设备及可读存储介质 |
CN114138980A (zh) * | 2021-11-10 | 2022-03-04 | 竹间智能科技(上海)有限公司 | 事件触发词的提取方法、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及系统 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
-
2014
- 2014-08-15 CN CN201410403486.3A patent/CN104156352B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及系统 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
Non-Patent Citations (1)
Title |
---|
LI PEIFENG: "Joint modeling of trigger identification and event type determination in chinese event extraction", 《COLING》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391836B (zh) * | 2014-11-07 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 处理用于句法分析的特征模板的方法及装置 |
CN104391836A (zh) * | 2014-11-07 | 2015-03-04 | 百度在线网络技术(北京)有限公司 | 处理用于句法分析的特征模板的方法及装置 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
CN106339412B (zh) * | 2016-08-12 | 2019-09-10 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN106339412A (zh) * | 2016-08-12 | 2017-01-18 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN107766332A (zh) * | 2017-11-27 | 2018-03-06 | 北京深知无限人工智能科技有限公司 | 一种语言模板构建方法及装置 |
CN109977391A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团公司 | 一种文本数据的信息抽取方法及装置 |
CN109977391B (zh) * | 2017-12-28 | 2020-12-08 | 中国移动通信集团公司 | 一种文本数据的信息抽取方法及装置 |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN110176227A (zh) * | 2018-03-26 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
CN110176227B (zh) * | 2018-03-26 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN108874778B (zh) * | 2018-06-15 | 2023-01-17 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN110737821A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 相似事件查询的方法、装置、存储介质和终端设备 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN110008445A (zh) * | 2019-03-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 事件抽取方法及装置、电子设备 |
CN110377753A (zh) * | 2019-07-01 | 2019-10-25 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110377753B (zh) * | 2019-07-01 | 2022-10-21 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
US11138383B2 (en) | 2019-08-21 | 2021-10-05 | International Business Machines Corporation | Extracting meaning representation from text |
WO2021033136A1 (en) * | 2019-08-21 | 2021-02-25 | International Business Machines Corporation | Extracting meaning representation from text |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN110941692B (zh) * | 2019-09-28 | 2022-07-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111222305B (zh) * | 2019-12-17 | 2024-03-22 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN113111661A (zh) * | 2020-01-09 | 2021-07-13 | 图灵人工智能研究院(南京)有限公司 | 文本信息分类方法、系统、设备及可读存储介质 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111460787B (zh) * | 2020-03-27 | 2023-09-22 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN111597817B (zh) * | 2020-05-27 | 2023-12-08 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN112232074A (zh) * | 2020-11-13 | 2021-01-15 | 完美世界控股集团有限公司 | 实体关系抽取方法、装置、电子设备及存储介质 |
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112613315B (zh) * | 2020-12-29 | 2024-06-07 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112818122A (zh) * | 2021-02-02 | 2021-05-18 | 中国科学院信息工程研究所 | 一种面向对话文本的事件抽取方法及系统 |
CN114138980A (zh) * | 2021-11-10 | 2022-03-04 | 竹间智能科技(上海)有限公司 | 事件触发词的提取方法、电子设备、存储介质 |
CN114138980B (zh) * | 2021-11-10 | 2024-07-05 | 竹间智能科技(上海)有限公司 | 事件触发词的提取方法、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104156352B (zh) | 2017-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104156352A (zh) | 一种中文事件的处理方法及系统 | |
CN107609052B (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN105069560B (zh) | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 | |
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN103995885B (zh) | 实体名的识别方法和装置 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN103617280A (zh) | 一种中文事件信息挖掘方法和系统 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN105608232B (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN103530281A (zh) | 一种论元抽取方法和系统 | |
CN104331480A (zh) | 一种中文事件触发词的抽取系统及方法 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN102402561B (zh) | 一种搜索方法和装置 | |
CN105912570B (zh) | 基于隐马尔可夫模型的英文简历关键字段抽取方法 | |
CN108647199A (zh) | 一种地名新词的发现方法 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN104376108B (zh) | 一种基于6w语义标识的非结构化自然语言信息抽取方法 | |
CN102122280A (zh) | 一种智能提取内容对象的方法及系统 | |
CN107239512A (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN103778200A (zh) | 一种报文信息源抽取方法及其系统 | |
CN105718585A (zh) | 文档与标签词语义关联方法及其装置 | |
KR102147582B1 (ko) | 속성 지식 확장 시스템 및 속성 지식 확장 방법 | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170419 |