发明内容
有鉴于此,本发明提供了一种中文事件抽取方法及系统,用以解决针对英文的事件抽取方法并不能很好地解决中文事件抽取的问题。其技术方案如下:
一种中文事件抽取方法,包括:
A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
B:依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
所述步骤A中具体为:
A1:将待抽取事件的本文划分为一个个的句子,得到初始句子集合;
A2:将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;
A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4:对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
步骤B具体为:
B1:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;
B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词;
步骤B2、B3和B4的执行顺序没有明确限定。
步骤C具体为:
C1:将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;
C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;
C3:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;
C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;
步骤C2、C3和C4的执行顺序没有明确限定。
步骤D具体为:
D1:根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;
D2:根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合;
D3:将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。
步骤E中依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词组成一致性处理训练集合和一致性处理测试集合具体为:
将所述触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将所述触发词第一集合中可信度小于所述第四设定阈值的触发词组成一致性处理测试集合。
步骤E中,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合具体为:
E1:对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,将该触发词的特征修改为该触发词的具体类别,分别得到多类分类测试特征集合和多类分类训练特征集合;
E2:将所述多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,形成带有可信度的触发词分类集合;
E3:对所述一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对所述一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合;
E4:把所述一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算,得到每个候选触发词的可信度,将可信度大于等于第五设定阈值的候选触发词组成触发词第二集合。
步骤F中利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合具体为:
F1:将所述多类分类测试特征集合中不属于所述触发词第二集合的触发词删除,得到多类分类测试特征第二集合;
F2:把所述多类分类训练特征集合中的每个触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,将可信度大于等于第六设定阈值的候选触发词组成触发词第三集合。
一种中文事件的抽取系统,包括:
预处理模块,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
候选触发词选择模块,用于依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
候选触发词过滤模块,用于根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
事件识别模块,用于利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
一致性处理模块,用于依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
事件分类模块,用于利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
本发明提供一种中文事件抽取方法和系统,该方法和系统通过分析中文词的结构,根据词内结构进行事件的触发词的识别,根据触发词的概率、词性和词内部结构等多方面入手判别识别出的触发词是否正确,利用中文词在语义篇章中的一致性,实现对触发词的分类。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和词汇在篇章中语义的一致性,提高了中文事件抽取的性能。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在英文中,一个单词或词组通常是由多个字母组合而成,而单词中的一个字母并不能表义。与英文不同的是,构成中文词组的单字很多时候就有自己的语义,而且大多数情况下该词组的语义也可以从组成它的单字的语义中组合得到,这就是组合语义。基于中文的这一特点,利用中文词的内部结构及其组合语义,根据训练语料库中的已知事件触发词可以推导出测试语料库中的未知事件触发词。例如:
Sen1:4名学生被玻璃划伤。
Sen2:1名乘客被刺伤。
其中,Sen1中的“划伤”是一个在训练语料库中出现的已知触发词,而“刺伤”是一个在训练语料库中未出现的触发词。
“划伤”的语义是对两个单字词“划”和“伤”的组合,是由于被划了才受伤;与此类似,“刺伤”的语义是对两个单字词“刺”和“伤”的组合,是由于被刺了才受伤。这两个触发词具有相似的内部结构,可以根据词的内部结构和词在内部结构基础上的组合语义,从“划伤”推导出“刺伤”也是一个受伤事件的触发词。同理,可以进一步推导其它由于某种行为而受伤的词,如“灼伤”、“撞伤”和“压伤”等。
此外,和英文相比,中文的句法结构不像英文那么严谨,因此,由于信息的缺失,使用通常的分类方法很难在句子层面识别中文事件。然而,与英文相比,中文的触发词在篇章层次上的一致性更加明显。例如,有一个篇章中的两个事件:
Sen3:美国与北韩3号在吉隆坡结束飞弹会谈。
Sen4:会谈的气氛严肃。
其中,Sen3有足够的信息(包括:参与者、日期和地点)来表明它是一个会谈事件,而Sen4明显缺少有效的信息,但是,很容易推断出Sen4是一个会谈事件,因为Sen3是一个会谈事件,并且Sen3和Sen4触发词一致。
因此,利用中文词在篇章中的语义一致性可以推导缺乏有效信息的事件。
基于中文词的内部结构及其组合语义、中文词在篇章层次上的一致性,本发明实施例提供了一种中文事件的抽取方法,图1为该方法的流程图,本发明实施例提供的方法包括:
S11:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合。
在本实施例中,步骤S11具体为:
S111:将待抽取事件的本文划分为一个个的句子,得到初始句子集合。
在本实施例中,在待抽取事件的文本中查找句子结束标记,根据句子结束标记将待抽取事件的文本划分为一个个的句子,其中,句子结束标记为:句号、感叹号、问号、分号和回车符。
S112:对初始句子集合中的每个句子进行分词,得到分词句子集合。
下面是一个对句子进行分词例子:
分词前的句子:塞德杀死一名以色列陆军中士,打伤两名士兵。
分词后的句子:塞 德 杀死 一 名 以色列 陆军 中士,打伤 两名 士兵。
其中,分词后的句子是用空格作为分隔符来表示分词后的句子。
S113:识别分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合。
下面是一个对句子进行实体识别并对识别出的实体进行标记的例子:
标记出实体的句子:塞德\PER杀 死一名 以色列\GPE 陆军\ORG中士\PER,打伤 两名 士兵\PER。
其中,PER/ORG/GPE是实体的类别标记,分别表示人物、组织和地理位置。
S114:对第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
下面是一个对句子句法分析的例子:
句法分析后的句子:((IP(NP(NR塞德))(VP(VP(VV杀死)(NP(QP(CD一)(CLP(M名)))(NP(NR以色列)(NN陆军))(NP(NN中士))))(PU,)(VP(VV打伤)(NP(NP(NR两名))(NP(NN士兵)))))(PU。)))
其中,IP、NP等标记是句法分析工具产生的标准标记信息。标记IP、VP、NP、PU、VV、NN、QP、CD、CLP、M、NR分别标识子句、动词性短语、名词性短语、标点符号、一般动词、名词、数量词短语、数词、类别短语、量词、专用名词。
下面是一个对句子的依存关系进行分析的例子:
依存关系分析后的句子:nsubj(杀死-2,塞德-1)conj(打伤-9,杀 死-2)nummod(名-4,一-3)nn(中士-7,以色列-5)nn(中士-7,陆军-6)dobj(杀死-2,中士-7) conj(杀死-2,打伤-9)nummod(士兵-11,两名-10)dobj(打伤-9,士兵-11)
其中,nsubj、conj、nummod、nn、dobj是依存关系的标记,分别表示形式主语、连接关系、数量关系、名词关系、直接宾语。
在本实施例中,利用分词工具对句子进行分词,利用实体识别工具识别分词后句子中的实体,利用句法和依存关系分析工具对第一句子集合中的句子进行句法和依存关系分析,本实施例中的分词工具、实体识别工具、句法和依存关系分析工具等均为自然语言处理技术中的通用工具,如句法分析工具为Berkeley Parser,依存关系分析工具为Stanford Parser。此外,本实施例中的实体指的是一个语义类别中的对象或对象的结合,如人名、交通工具和地名等。
S12:依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合。
其中,依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,具体为:
S121:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合。
S122:对于第二句子集合中的每个句子的每个词,如果该词在训练集触发词集合中出现,则将该词标记为候选触发词。
S123:对于第二句子集合中的每个句子的每个词,如果该词的片段(如词组“打电话”可分为“打”、“电”、“话”、“打电”和“电话”五个片段)在训练集触发词集合中出现,则将该词标记为候选触发词。
S124:对于第二句子集合中的每个句子的每个词,如果该词是训练集触发词集合中的词的片段,则将该词标记为候选触发词。
步骤S122、S123和S124的执行顺序没有明确限定。
在本实施例中,候选触发词集合中每一项的结构为:<项>=<触发词><触发词所在句子>,每个触发词的结构为:<候选触发词><分割符><抽取该触发词的句子>。
本实施例中的中文标记语料库为ACE2005中文标注语料库,ACE2005语料库是信息抽取常用的训练语料库,包括633个文档,标记的事件为8个大类和33个小类。下面是一个根据触发词标记“<anchor>”从ACE2005中文标注语料库的训练集合中抽取所有触发词的例子:
S13:根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合。
在本实施例中,步骤S13具体为:
S131:将训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合。
S132:对于候选触发词集合中出现的每个词,如果该词在训练集合中出现,则根据训练集句法和依存标记集合中的分词标记,统计该词在训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除。
在本实施例中,每个词作为非触发词的概率依据下式进行计算:
其中,wi为候选触发词集合中的一个候选触发词,freq(wi)为该候选触发词wi在训练集合中出现的频度,freq_trainning(wi)为该候选触发词wi在训练集触发词集合中出现的频度,pro(wi)即候选触发词wi作为非触发词的概率。
对于在候选触发词集合出现的每个词wi,且该词在训练集合中出现,如果该词作为非触发词的概率pro(wi)大于第一设定阈值且该词在训练集合中出现的频度freq(wi)大于第二设定阈值,则把该词从候选触发词集合中删除。
S133:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除。
其中,每个触发词的格式如下:
<触发词><词性>[,<词性>]
S134:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除。
由于绝大多数的事件触发词是动词或动名词,而且绝大多数的触发词的长度都是小于等于2,对于每个二字词动词,都有1-2个表示主要语义的单字词,是构成动词的基本要素,简称为BV。本发明定义了6种不同类别的内部结构,分别用interstru1~interstru6表示:
(1)interstru1:BV(“看”、“杀”)
(2)interstru2:BV+动词(“会见”)
(3)interstru3:动词+BV(“解雇”)
(4)interstru4:BV+附加成分(“杀了”)
(5)interstru5:BV+名词/形容词(“回家”)
(6)interstru6:名词/形容词+BV(“枪击”)
本发明把内部结构相同并且具有相同的BV的词称为同结构词,如“枪击”、“炮击”、“棒击”和“棍击”结构都是“名词/形容词+BV(击)”,它们是同结构词。
在本实施例中,候选触发词及同结构词在训练集合中作为触发词的概率依据下式计算:
其中,tri为候选触发词集合中的一个候选触发词,wj为训练集触发词集合中与候选触发词tri同结构的词,即wj的interstru等于tri的interstru,wj的BV等于tri的BV,候选触发词tri的同结构词组成同结构词集合Si,freq(wj)为该触发词wj在训练集合中出现的频度,freq_trainning(wj)为触发词wj在训练集触发词集合中出现的频度,simpro(tri)即为候选触发词tri及其在同结构词集合Si中的所有词作为触发词的概率。
如果候选触发词tri及其在同结构词集合Si中的所有词作为触发词的概率simpro(tri)小于第四设定阈值,则把该触发词从候选触发词集合删除;如果simpro(tri)大于等于第四设定阈值,则保留。
需要说明的是,步骤S132、S133和S134的执行顺序没有明确限定。
S14:利用最大熵识别模型从过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合。
在本实施例中,步骤S14具体为:
S141:根据预先选择的触发词的特征,从训练集句法和依存标记集合中抽取训练集触发词集合中每个触发词的特征,构成训练特征集合。
其中,每个触发词tri的特征的结构如下:
<类别:1-触发词;0-非触发词><1=tri><2=tri的词性><3=tri前面的词+tri><4=tri前面词的词性+tri的词性><5=tri+tri后面的词><6=tri的词性+tri后面词的词性><7=在句法树中tri到第一个IP标记的路径长度><8=在句法树中tri到顶层IP标记的路径><9=包含tri的短语结构><10=包含tri的短语结构的词性><11=tri在同义词词林中的语义类别><12=tri是否在PropBank中作为谓词><13=距离tri最近的实体>
下面是一个具体的例子:
11=死亡 2=VV 3=人+死亡 4=NN+VV 5=死亡+,6=VV+PU 7=38=死亡->VV->VP->IP->VP->VP->IP->IP 9=(VP(VV死亡))10=VP 11=Ak0212=1 13=人
S142:根据预先选择的触发词特征,从第二句子集合中抽取候选触发词集合中每个触发词的特征,构成测试特征集合。
S143:将训练特征集合和测试特征集合输入最大熵分类器,最大熵分类器计算测试特征集合中每个触发词tri的可信度conf1i(tri),得到带有可信度的触发词第一集合。
S15:依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合。
在本实施例中,依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合具体为:将触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将触发词第一集合中可信度小于第四设定阈值的触发词组成一致性处理测试集合。
利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合具体为:
S151:对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,从0/1(是或不是触发词)的2个类别改为多个类别(触发词的具体类别),即候选触发词所对应的事件类别的编号,分别得到多类分类测试特征集合和多类分类训练特征集合。如果候选触发词属于任何一类事件,用0表示其类别。在下面的例子中,把测试特征集合中的一个候选触发词的特征项前面的类别“1”(是触发词)修改成“5”(会面事件编号),放入多类分类测试特征集合。
测试特征集合:1 1=召见 2=VV 3=。+召见 4=PU+VV 5=召见+”6=VV+PU 7=2 10=VP 13=PER校长 15=PER校长 16=PER林立凡
多类分类测试特征集合:5 1=召见 2=VV 3=。+召见 4=PU+VV 5=召见+”6=VV+PU 7=2 10=VP 13=PER校长15=PER校长16=PER林立凡
S152:把多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词tri属于某个类别的最高可信度conf2i(tri),形成带有可信度的触发词分类集合;
S153:对一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合。其中,候选触发词tri的特征如下:
simpro(tri);
相同文档内词tri实例是事件触发词的个数;
相同文档内词tri实例不是事件触发词的个数;
tri的类别;(来自所触发词分类集合)
tri属于某个类别的最高可信度conf 2i(tri)。(来自所述触发词分类集合)
S154:把一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算(是或不是触发词),得到每个候选触发词tri的可信度conf3i(tri);如果conf3i(tri)大于等于第五设定阈值,则把该候选触发词tri加入触发词第二集合。
S16:利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据触发词第三集合中的触发词标记第一句子集合中包含利用最大熵分类模型所识别类别的事件,得到事件集合。
利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合的具体过程如下:
S161:把多类分类测试特征集合中不属于触发词第二集合的候选触发词删除,得到多类分类测试特征第二集合。
S162:把多类分类训练特征集合和多类分类测试特征第二集合输入最大熵分类器,最大熵分类器对多类分类测试特征第二集合中的每个候选触发词进行分类计算,得到每个候选触发词tri属于某个类别的最高可信度conf 4i(tri),如果conf 4i(tri)大于等于第六设定阈值,则把该候选触发词tri加入触发词第三集合。
本发明实施例根据中文词的内部结构扩展候选触发词集合,根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,去掉了大量的非触发词,再利用识别和分类模型从候选触发词中抽取事件。本发明实施例提供的中文事件抽取方法充分考虑了中文词本身的特点,从词的内部结构挖掘出更多的事件触发词,从而提高了事件抽取的性能。
下表是本发明在中文ACE2005语料库上的测试结果。测试数据表明,本发明与现有技术相比,准确率、召回率和F值分别提高了4.1%、11.5%和9%,即本发明具有更高的准确率、召回率和F值。其中,准确率、召回率和F值是业内公认的评测标准,准确率表示事件识别和分类中准确的比率,召回率衡量时间识别和分类是否全面,F值是准确率和召回率的综合。
表1
本发明实施例还提供了一种中文事件的抽取系统,图2为该系统的结构示意图,该系统包括:预处理模块11、候选触发词选择模块12、候选触发词过滤模块13、事件识别模块14、一致性处理模块15和事件分类模块16。
预处理模块11,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合。
候选触发词选择模块12,用于依据中文标记语料库的训练集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合。
候选触发词过滤模块13,用于根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合。
事件识别模块14,用于利用最大熵识别模型从过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合。
一致性处理模块15,用于依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合。
事件分类模块16,用于利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据触发词第三集合中的触发词标记第一句子集合中包含利用最大熵分类模型所识别类别的事件,得到事件集合。
本发明提供的中文事件抽取方法和系统,通过分析中文词的结构,根据词内结构进行事件的触发词的识别,根据触发词的概率、词性和词内部结构等多方面入手判别识别出的触发词是否正确,把词本身、同结构词等多方面信息进行融合,实现对触发词的分类。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和词汇在篇章中语义的一致性,提高了中文事件抽取的性能。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。