CN103617280A - 一种中文事件信息挖掘方法和系统 - Google Patents

一种中文事件信息挖掘方法和系统 Download PDF

Info

Publication number
CN103617280A
CN103617280A CN201310664718.6A CN201310664718A CN103617280A CN 103617280 A CN103617280 A CN 103617280A CN 201310664718 A CN201310664718 A CN 201310664718A CN 103617280 A CN103617280 A CN 103617280A
Authority
CN
China
Prior art keywords
template
candidate
anchor
event
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310664718.6A
Other languages
English (en)
Other versions
CN103617280B (zh
Inventor
李培峰
周国栋
朱巧明
孔芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Big Data Co ltd
Suzhou Big Data Research Institute Co ltd
Suzhou Big Data Trading Service Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310664718.6A priority Critical patent/CN103617280B/zh
Publication of CN103617280A publication Critical patent/CN103617280A/zh
Application granted granted Critical
Publication of CN103617280B publication Critical patent/CN103617280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种中文事件信息挖掘方法和系统,该方法基于挖掘需求,定义事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到候选模板集合;并对种子事件进行信息标注,基于标注信息对种子事件进行处理,得到种子模板集合。之后采用迭代方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对候选模板集合进行处理,得到挖掘事件锚集合,并依据该集合中每个挖掘事件锚和种子事件集合中任一种子事件锚的词汇语义相似度,获取挖掘事件锚对应的事件类型。可见本发明只需标注少量样本,即只需标注种子事件即可实现从原始文本中挖掘中文事件信息的目的,降低了挖掘成本。

Description

一种中文事件信息挖掘方法和系统
技术领域
本发明属于中文信息挖掘技术领域,尤其涉及一种中文事件信息挖掘方法和系统。
背景技术
事件挖掘是从海量互联网文本信息中挖掘出用户感兴趣的事实信息,从而为后续的分析和决策提供依据。例如从互联网挖掘与恐怖袭击有关的事件(包括攻击事件、死亡事件等),可以用于分析各个国家、地区的安全状况,因此,对事件挖掘方法进行研究,特别是对中文事件挖掘方法进行研究有着重要的应用价值。
中文事件挖掘的目的是从原始文本中挖掘出特定事件的锚,并判断挖掘出的锚对应的事件类型。目前,中文事件挖掘方法主要有手工规则方法和有监督方法两种,其中,手工规则方法具体为:人工通过阅读大量的文档信息总结出信息挖掘的规则,然后利用总结出的规则从待挖掘的原始文本(或自然文本)中挖掘信息;有监督方法具体为:用户标注出大量的训练样本,然后在标注的训练样本的基础上训练一个分类器,用于从待挖掘的原始文本中抽取信息。
以上两种挖掘方法中,需要阅读大量文档信息编制挖掘规则或标注出大量训练样本,而挖掘规则的编制和大量训练样本的标注,均需要耗费大量时间和精力,从而导致事件挖掘成本较高,费时费力。
发明内容
有鉴于此,本发明的目的在于提供一种中文事件信息挖掘方法和系统,以克服上述问题,实现在少量标注的情况下从原始文本中挖掘中文事件信息的目的,降低挖掘成本。
为此,本发明提供如下技术方案:
一种中文事件信息挖掘方法,包括:
对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于1的自然数;
对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
优选的,所述对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合具体包括:
对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合;
根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚;
对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。
分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
优选的,所述依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合具体包括:
对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
优选的,所述基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合具体包括:
从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板;
将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数;
判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续;
计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数;
计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数;
从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合;
从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行步骤:判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续。
优选的,所述计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj)具体包括:
根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = Σ i ∈ Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - Π p j ∈ Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,Apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = Σ i ∈ Doc ( p j ) DocRel ( i ) | Doc ( p j ) | × log Σ i ∈ Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。
优选的,所述计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk)具体包括:
利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数;
基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk间的依存路径相似度SimD(depj,depk),
SimD ( dep j , dep k ) = Σ m = l n q m × d m Σ m = l n q m 2 × Σ m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,
Figure BDA0000433424470000062
是depj中各个依存关系出现个数的向量,
Figure BDA0000433424470000063
是depk中各个依存关系的出现个数的向量;
基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = Σ m = l n ′ q ′ m × d ′ m Σ m = l n ′ q ′ m 2 × Σ m = l n ′ q ′ m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure BDA0000433424470000065
是synj中各个句法路径出现个数的向量,
Figure BDA0000433424470000066
是synk中各个句法路径出现个数的向量;
利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk间的实体类型相似度SimA(etj,etk):
Figure BDA0000433424470000067
综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk间的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)
其中,β是一个可调节的参数。
一种中文事件信息挖掘系统,包括原始文本分析模块、定义模块、处理模块、种子事件分析模块、事件锚获取模块和事件类型获取模块,其中:
所述原始文本分析模块,用于对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
所述定义模块,用于定义需要从所述原始文本中挖掘事件的N种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述N为不小于1的自然数;
所述处理模块,用于对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
所述种子事件分析模块,用于依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
所述事件锚获取模块,用于基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
所述事件类型获取模块,用于依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
优选的,所述原始文本分析模块具体包括:
原始文本预处理模块,用于对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合;
候选事件锚选择模块,用于根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚;
候选实体选择模块,用于对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体;
候选模板获取模块,用于分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
优选的,所述种子事件分析模块具体包括:
种子事件预处理模块,用于对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
种子模板获取模块,用于分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
优选的,所述事件锚获取模块具体包括:
初始选择模块,用于从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板;
赋值模块,用于将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数;
判断模块,用于判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续执行评级得分计算模块;
评级得分计算模块,用于计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数;
相似度计算模块,用于计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数;
第一选择模块,用于从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合;
第二选择模块,用于从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
第三选择模块,用于从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
清空模块,用于把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行所述判断模块。
优选的,所述评级得分计算模块具体包括:
精确度得分计算单元,用于根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = Σ i ∈ Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
文档相似度计算单元,用于根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - Π p j ∈ Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
评级得分计算单元,用于根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = Σ i ∈ Doc ( p j ) DocRel ( i ) | Doc ( p j ) | × log Σ i ∈ Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。
优选的,所述相似度计算模块具体包括:
词汇语义相似度计算单元,用于利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数;
依存路径相似度计算单元,用于基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk间的依存路径相似度SimD(depj,depk),
SimD ( dep j , dep k ) = Σ m = l n q m × d m Σ m = l n q m 2 × Σ m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,
Figure BDA0000433424470000112
是depj中各个依存关系出现个数的向量,是depk中各个依存关系的出现个数的向量;
句法路径相似度计算单元,用于基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = Σ m = l n ′ q ′ m × d ′ m Σ m = l n ′ q ′ m 2 × Σ m = l n ′ q ′ m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure BDA0000433424470000115
是synj中各个句法路径出现个数的向量,
Figure BDA0000433424470000116
是synk中各个句法路径出现个数的向量;
实体类型相似度计算单元,用于利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk间的实体类型相似度SimA(etj,etk):
候选模板相似度计算单元,综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)
其中,β是一个可调节的参数。
本发明实施例提供的方法基于原始文本中特定事件的挖掘需求,定义需要从原始文本中挖掘事件的事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到原始文本的候选模板集合,该候选模板集合中的候选模板包括候选事件锚;并对种子事件进行信息标注、以及基于标注信息对种子事件进行处理,得到种子模板集合,之后,基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,并依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
可见本发明的方法不需阅读大量文档信息编制挖掘规则,也不需要标注大量训练样本,只需标注少量样本,即只需标注种子事件即可,从而本发明实现了在少量标注的情况下从原始文本中挖掘中文事件信息的目的,省时省力,降低了挖掘成本,提高了挖掘效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的中文事件信息挖掘方法流程图;
图2是本发明实施例一提供的候选模板集合的获取过程流程图;
图3是本发明实施例一提供的句法路径实例示意图;
图4是本发明实施例一提供的种子模板集合的获取过程流程图;
图5是本发明实施例一提供的挖掘事件锚集合的获取过程流程图;
图6是本发明实施例一提供的候选模板评级得分的计算过程流程图;
图7是本发明实施例一提供的候选模板和种子模板间的语义相似度的计算过程流程图;
图8是本发明实施例二提供的中文事件信息挖掘系统的结构示意图;
图9是本发明实施例二提供的原始文本分析模块的结构示意图;
图10是本发明实施例二提供的种子事件分析模块的结构示意图;
图11是本发明实施例二提供的事件锚获取模块的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
实体:Entity,一个语义类别中的对象或对象的集合,如人名、交通工具和地名等。
事件:Event,在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件。
角色:Role,事件的参与者和属性,一般用实体来填充。如死亡者、死亡时间和地点就是死亡事件的角色。
事件锚:Anchor,用于识别事件的核心词(一般为动词和名词居多),又称为触发词。如“生于”、“出生”等就是出生事件锚。
事件挖掘:Event Mining,从文档中找到特定事件的锚及其对应句子,然后判别其事件类型。
依存树:Dependency Tree,一个句子的依存关系集合按照支配成分是受支配成分的下位的方法生成的树就是依存树,依存树由结点和边构成,结点是句子的语法成分,相邻结点和结点间的边由这两个结点的依存关系表示。
依存路径:Dependency Path,在依存树上,任意2个结点之间不包含结点、只包含边(依存关系)的路径就是依存路径。
知网:HowNet,一个由董振东等建立的,以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
义原:Sememe,用于描述词汇语义的最小意义单位。如“129die死”就是词汇“死”的一个义原,其中数字是义原的编号。
召回率:Recall,系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽取性能的指标之一。
准确率:Precision,系统正确抽取的事件个数占所有抽取出的事件的比例。衡量事件抽取性能的指标之一。
F1指数:F1-Measure,衡量事件抽取性能的综合指标之一,准确率(P)和召回率(R)的加权几何平均值,即:
Figure BDA0000433424470000141
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开一种中文事件信息挖掘方法和系统,以下将通过各实施例对本发明的方法和系统进行详细说明。
实施例一
本发明实施例一公开一种中文事件信息挖掘方法,请参见图1,该方法包括:
S1:对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组。
需要说明的是,本实施例中的原始文本是指需要挖掘事件信息的文本,是没有任何标记信息的文本文档的集合。
其中,请参见图2,步骤S1具体包括:
S11:对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合。
首先,对原始文本的每个文档以“。”、“!”和“?”为分隔符进行分句,并调用分词工具对分句后的每个句子进行词语切分,得到用空格分隔词语的分词句子集合,例如句子“真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。”经过词语切分后如例1所示:
例1:真主党用飞弹攻击以色列奇巴农场,并且造成了3名以色列士兵受伤。
之后,调用实体识别工具从所述分词句子集合的每个句子中识别实体,并对识别出的实体进行标注,得到实体标注句子集合。所述实体标注句子集合中每个实体标注格式为“实体/实体类型”,比如以上例1经过实体标注后具体如例2所示:
例2:真主党/ORG用飞弹/WEA攻击以色列/GPE奇巴农场/LOC,并且造成了3名/NUM以色列/GPE士兵/PER受伤。
其中,“ORG”、“WEA”、“GPE”、“LOC”、“NUM”和“PER”分别表示的实体类型是组织机构、武器装备、政治性实体、位置、数量和人。除此之外,常用的实体类型还有“TIME”、“JOB”、“FAC”和“VEH”等,分别表示时间、工作岗位、场所和交通工具。
然后,调用句法分析工具对实体标注句子集合中的每个句子进行句法分析,得到每个句子的句法树,原始文本中各实体标注句子对应的句法树构成句法树集合。
句法分析具体是指对句子中的词语语法功能进行分析。
利用句法分析工具对以上例2进行句法分析后,如例3所示:
例3:((IP(NP(NR真主党))(VP(VP(PP(P用)(NP(NN飞弹)))(VP(VV攻击)(NP(NR以色列)(NR奇巴农场))))(PU,)(CC并且)(VP(VV造成)(AS了)(NP(CD3名)(NR以色列)(NN士兵))(IP(VP(VV受伤)))))(PU。)))
其中,“NR”、“P”、“NN”、“VV”、“PU”、“CC”、“AS”和“CD”是句法分析后的标签,其分别表示专用名词、介词、普通名词、普通动词、标点符号、连词、时态词和数量词;“NP”、“VP”、“PP”和“IP”分别表示名词性短语、动词性短语、介词性短语和子句。
接下来,调用依存关系分析工具对实体标注句子集合中的每个句子进行依存关系分析,得到每个句子对应的依存关系,原始文本中各实体标注句子对应的依存关系构成依存关系集合。
依存关系集合的格式具体为:
依存关系1;依存关系2;……依存关系n。
依存关系是由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组,如“nsubj(攻击-3,真主党-1)”,表示支配成分“真主党”是受支配成分“攻击”的nsubj(形式主语)。
以上例2的实体标注句子经依存关系分析后,得到的依存关系如例4所示:
例4:nsubj(攻击-4,真主党-1);prep(攻击-4,用-2);pobj(用-2,飞弹-3);nn(奇巴农场-6,以色列-5);dobj(攻击-4,奇巴农场-6);cc(攻击-4,并且-8);dep(攻击-4,造成-9);asp(造成-9,了-10);numod(士兵-13,3名-11);nn(士兵-13,以色列-12);nsubj(受伤-14,士兵-13);ccomp(造成-9,受伤-14)。
其中,“nn”,“nsubj”、“dobj”、“cc”、“asp”、“numod”、“ccomp”、“dep”、“pobj”和“prep”是依存关系分析工具输出的关系标签,分别表示并列名词、主谓关系、直接宾语、连接关系、时态标词、数量修饰、从句补语、其它关系、介词宾语和介词关系。
分词工具、实体识别工具、句法分析工具和依存关系分析工具等,是自然语言处理技术中通用的工具,本实施例中分词工具具体采用ICTCLAS,实体识别工具采用Stanford NER、句法分析工具和依存关系分析工具均采用Stanford Parser。
S12:根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚。
具体地,从所述句法树集合中选择词性标注为“NN”或“VV”的词作为候选事件锚,选择出的各候选事件锚构成候选事件锚第一集合。
由于在中文事件中事件锚的词性绝大多数是动词或名词,所以本发明选择词性为动词和名词的词语作为候选事件锚。如从例2中选择出的候选事件锚包括:“飞弹”、“攻击”、“造成”、“士兵”和“受伤”。
之后,对候选事件锚第一集合中的候选事件锚采用如下的过滤规则进行过滤,得到过滤后的各候选事件锚,该过滤后的各候选事件锚构成候选事件锚第二集合。
其中,本实施例采用的过滤规则具体为:
1)出现频率规则:统计候选事件锚第一集合中的每个候选事件锚在原始文本中的出现次数,将该出现次数除以原始文本中文档的数目,得到该候选事件锚的出现频率;把出现频率大于预设阈值的候选事件锚从候选事件锚第一集合中删除。
2)实体规则:判断在候选事件锚第一集合中的每个名词性候选事件锚是否是一个实体,如果判断结果为是,则把该名词性候选事件锚从候选事件锚第一集合中删除。
3)并列名词规则:对候选事件锚第一集合中的每个名词性候选事件锚,判断其在所在句子中的位置的后面一个词是否是一个候选事件锚;如果判断结果为是,则把该名词性候选事件锚从候选事件锚第一集合中删除。
例如,从例2中选择出的候选事件锚“飞弹”和“士兵”由于是实体,所以这两个候选事件锚被实体规则所过滤,相应将其从候选事件锚第一集合中删除。
S13:对过滤后的任意一个候选事件锚从所述实体标注句子集合中选择所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。
具体地,各候选实体构成候选实体集合,判断候选实体集合中每一候选实体在其所在句子中的位置的后面一个词是否是一个实体,如果判断结果为是,则过滤掉该候选实体,即从候选实体集合中删除该候选实体。
S14:分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
句法路径是指句法树中两个结点间的路径。
具体地,对过滤后得到的第二候选事件锚集合中的任意一个候选事件锚,将其与其所在句子的候选实体集合(过滤后)中的每一个实体两两构成(候选事件锚,实体)二元组,并从句法树集合中查找该候选事件锚所在句子的句法树,采用树遍历的方法得到所有所述二元组中候选事件锚和实体之间的句法路径;所述二元组和句法路径构成三元组,各候选事件锚对应的各三元组构成句法模板集合。
例如,候选事件锚“攻击”和实体“真主党”之间的句法路径如图3所示,为“VV->VP->VP->VP->IP->NP->NR”。
依存路径是指任意两个结点之间通过依存关系建立的路径。
对句法模板集合中的任意一个三元组,根据该三元组中的候选事件锚从依存关系集合中找到该候选事件锚所在句子的依存关系;从找到的该依存关系中遍历得到三元组中的候选事件锚和实体之间的依存路径;所述三元组和所述依存路径组成四元组,将该四元组标记为候选模板,所有的候选模板构成句法依存模板集合。
比如例4中候选事件锚“攻击”和实体“飞弹”之间的依存路径是“prep->pobj”(根据依存关系prep(攻击-4,用-2)和pobj(用-2,飞弹-3)得到),候选事件锚“攻击”和实体“士兵”之间的依存路径是“dep->ccomp->nubj”。
如果句法依存模板集合中任一候选模板的依存路径长度大于第四阈值或者它的句法路径长度大于第五阈值,则把该候选模板从句法依存模板集合中删除,删除操作结束后的句法依存模板集合标记为候选模板集合。
S2:定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于1的自然数。
具体地,依据具体的挖掘需求,定义需要从原始文本中挖掘的事件的各事件样本模型。例如需从原始文本中挖掘恐怖袭击相关事件,根据该挖掘需求定义了攻击事件样本模型和死亡事件等样本模型,其中定义的攻击事件样本模型具体如例5所示:
例5:事件类型:Attack(攻击)
事件角色及其可填充的实体类型:
Attacker(攻击者):PER/GPE/ORG;
Target(被攻击者):PER/GPE/ORG;
Instrument(攻击装备):WEA/VEH;
Place(攻击地点):LOC/FAC;
Time(攻击时间):TIME
S3:对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型。
具体地,对每种事件类型的事件样本模型进行实例化时,提供的种子事件(作为事件样本模型的事件实例)的个数可视具体挖掘情况而定,本实施例中,针对每种事件类型的事件样本模型给出5-10个标注好的种子事件。
例6是一个种子事件的例子:
例6:<9日早上,Time:TIME>一个穿白色衣服的<少年,Attacker:PER>在<大街,Place:LOC>上用<棒,Instrument:WEA><打,Anchor:Attack>了一个<中年妇女,Target:PER>。
其中,“Anchor:Attack”表示事件的锚,其类型是“Attack”;“Time:TIME”表示其角色是“Time”,实体类型是“TIME”,其它角色的标注类似。
S4:依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组。
如图4所示,步骤S4具体包括:
S41:对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合。
其中,如果一个实体被词语切分成多个词,需要合并成为一个词。例如“中华人民共和国”要合并成实体“中华人民共和国”。
S42:分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
上述对种子事件通过词语切分、句法分析、依存关系分析等得出种子事件锚到其对应的实体的句法路径、依存关系路径,并最终得出种子模板集合的详细过程与上文的候选模板集合的获取过程类似,具体请参见候选模板集合获取过程的描述,此处不再详述。
S5:基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚。
请参见图5,步骤S5具体包括:
S51:从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板。
其中,相似模板是指锚相同、实体类型相同以及句法路径相同的两个模板,或者锚相同、实体类型相同以及依存路径相同的两个模板。
S52:将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数。
具体地,如果文档Doci中不含有挖掘事件锚集合中的事件锚,则该文档Doci的文档相关度为0。
S53:判断n的值是否达到第一阈值,若判断结果为是,则迭代结束;否则若判断结果为否,则执行步骤S54。
预先设置迭代次数(即第一阈值),当n的值到达该阈值,则迭代结束。
S54:计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数。
如图6所示,上述步骤S54具体包括:
S541:根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
S542:根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - &Pi; p j &Element; Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,Apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
S543:根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | &times; log &Sigma; i &Element; Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。该公式(3)的基本思想是:如果一个文档中出现了某个类型的事件,那么该文档中同类事件或相关事件出现的概率就高。
S55:计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数。
如图7所示,上述步骤S55具体包括:
S551:利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数,本实施例中,α的值设置为1.6。
具体地,从Hownet中检索得到候选模板pj的候选事件锚aj和种子模板pi的种子事件锚ak的义原,由于所有的义原在HowNet中根据上下位关系构成了一个树状的义原层次体系,因此本发明通过语义距离(即路径长度)来计算义原的相似度。
S552:基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk的依存路径相似度SimD(depj,depk),
SimD ( dep j , dep k ) = &Sigma; m = l n q m &times; d m &Sigma; m = l n q m 2 &times; &Sigma; m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,
Figure BDA0000433424470000232
是depj中各个依存关系出现个数(如果没有出现,则出现个数设置为0)的向量,是depk中各个依存关系的出现个数的向量。
S553:基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = &Sigma; m = l n &prime; q &prime; m &times; d &prime; m &Sigma; m = l n &prime; q &prime; m 2 &times; &Sigma; m = l n &prime; q &prime; m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure BDA0000433424470000235
是synj中各个句法路径出现个数的向量,
Figure BDA0000433424470000236
是synk中各个句法路径出现个数的向量。
S554:利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk的实体类型相似度SimA(etj,etk):
具体地,如果上述两个模板中的实体的实体类型相同(例如都是“PER”),则实体类型相似度为1,否则对其赋值0。
S555:综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)其中,β是一个可调节的参数,本实施例中,β取值0.6。
S556:选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj)。
S56:从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合。
S57:从所述迭代候选模板集合中选择所述评级得分最高的候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合。
S58:从所述迭代候选模板集合中选择所述语义相似度最高的候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合。
S59:把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行步骤S53。
S6:依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
具体地,利用以上公式(4)计算挖掘事件锚集合中每个挖掘事件锚ai和种子事件集合中的任一种子事件锚ak的词汇语义相似度SimT(ai,ak),得到该挖掘事件锚ai的词汇语义相似度集合,从该词汇语义相似度集合中获取取值最大的词汇语义相似度,并获取该取值最大的词汇语义相似度对应的种子事件锚,将获取的所述种子事件锚对应的事件类型作为挖掘事件锚的事件类型。至此,本发明完成了从原始文本中获取特定事件锚及其对应的事件类型的过程。
需要说明的是,候选模板集合、种子模板集合的获取不限于本实施例中描述的先后次序,也可以先获取种子模板集合、后获取候选模板集合,当然,也可以同时获取。
综上所述,本发明实施例提供的方法基于原始文本中特定事件的挖掘需求,定义需要从原始文本中挖掘事件的事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到原始文本的候选模板集合,该候选模板集合中的候选模板包括候选事件锚;并对种子事件进行信息标注、以及基于标注信息对种子事件进行处理,得到种子模板集合,之后,基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,并依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
可见本发明方法不需阅读大量文档信息编制挖掘规则,也不需要标注大量训练样本,只需标注少量样本,即只需标注作为从原始文本中挖掘事件的依据的种子事件即可,从而本发明实现了在少量标注的情况下从原始文本中挖掘中文事件信息的目的,省时省力,降低了挖掘成本,提高了挖掘效率。
实施例二
本发明实施例二公开一种中文事件信息挖掘系统,请参见图8,该系统包括原始文本分析模块100、定义模块200、处理模块300、种子事件分析模块400、事件锚获取模块500和事件类型获取模块600。
原始文本分析模块100,用于对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组。
其中,如图9所示,原始文本分析模块100具体包括原始文本预处理模块110、候选事件锚选择模块120、候选实体选择模块130和候选模板获取模块140。
原始文本预处理模块110,用于对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合。
候选事件锚选择模块120,用于根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚。
候选实体选择模块130,用于对过滤后的任意一个候选事件锚从所述实体标注句子集合中找到所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。
候选模板获取模块140,用于分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
定义模块200,用于定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于1的自然数。
处理模块300,用于对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型。
种子事件分析模块400,用于依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组。
具体地,如图10所示,该种子事件分析模块400包括种子事件预处理模块410和种子模板获取模块420。
种子事件预处理模块410,用于对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
种子模块获取模块420,用于分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
事件锚获取模块500,用于基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚。
请参见图11,该事件锚获取模块500具体包括:初始选择模块510、赋值模块520、判断模块530、评级得分计算模块540、相似度计算模块550、第一选择模块560、第二选择模块570、第三选择模块580和清空模块590。
初始选择模块510,用于从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板。
赋值模块520,用于将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数。
判断模块530,用于判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续执行评级得分计算模块。
评级得分计算模块540,用于计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数。
具体地,评级得分计算模块540包括精确度得分计算单元、文档相似度计算单元和评级得分计算单元。
精确度得分计算单元,用于根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
文档相似度计算单元,用于根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - &Pi; p j &Element; Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,Apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
评级得分计算单元,用于根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | &times; log &Sigma; i &Element; Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。
相似度计算模块550,用于计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数。
具体地,该相似度计算模块550包括词汇语义相似度计算单元、依存路径相似度计算单元、句法路径相似度计算单元、实体类型相似度计算单元和候选模板相似度计算单元。
词汇语义相似度计算单元,用于利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数,本实施例中,α取值1.6。
依存路径相似度计算单元,用于基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk的依存路径相似度SimD(depj,depk),
SimD ( dep j , dep k ) = &Sigma; m = l n q m &times; d m &Sigma; m = l n q m 2 &times; &Sigma; m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,
Figure BDA0000433424470000302
是depj中各个依存关系出现个数的向量,
Figure BDA0000433424470000303
是depk中各个依存关系的出现个数的向量;
句法路径相似度计算单元,用于基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = &Sigma; m = l n &prime; q &prime; m &times; d &prime; m &Sigma; m = l n &prime; q &prime; m 2 &times; &Sigma; m = l n &prime; q &prime; m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure BDA0000433424470000305
是synj中各个句法路径出现个数的向量,
Figure BDA0000433424470000306
是synk中各个句法路径出现个数的向量;
实体类型相似度计算单元,用于利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk的实体类型相似度SimA(etj,etk):
Figure BDA0000433424470000307
候选模板相似度计算单元,综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)
其中,β是一个可调节的参数,本实施例中,β取值0.6。
第一选择模块560,用于从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合。
第二选择模块570,用于从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合。
第三选择模块580,用于从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合。
清空模块590,用于把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行所述判断模块。
事件类型获取模块600,用于依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
对于本发明实施例二公开的中文事件信息挖掘系统而言,由于其与以上实施例一公开的中文事件信息挖掘方法相对应,所以描述的比较简单,相关相似之处请参见实施例一中中文事件信息挖掘方法部分的说明即可,此处不再详述。
综上所述,本发明实现了基于对少量样本进行标注,即基于标注种子事件,利用事件中锚和角色的语义关系,从文档一致性和语义相似性角度,利用自举迭代的方法,从海量原始文本中挖掘事件信息。从而本发明具有只需标注少量样本,人工工作量少,成本低的优点;且由于本发明采用了多视图(文档一致性和语义相似性)方法,挖掘事件的性能有了明显的提升。请参见表1,表1示出了本发明方法和现有的最好最小监督法事件信息挖掘性能的对比实验数据,具体地,表1的数据基于中文ACE2005语料库,ACE2005语料库是信息抽取常用的训练语料,包括633个文档。
实验数据表明,本发明的方法与现有的最好最小监督方法(Shasha Liaoand Ralph Grishman.2010.Filtered Ranking for Bootstrapping in Event Extraction.In Proc.COLING2010,pages680-688,Beijing,China.)相比,性能有了明显提高,F1值提高了11.4%。
表1
系统 召回率R F1
目前性能最好的系统(Liao等,COLING2010) 39.4 52.7
本系统 63.2 64.1
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上装置、系统时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各模块或单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,
本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种中文事件信息挖掘方法,其特征在于,包括:
对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于1的自然数;
对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
2.根据权利要求1所述的方法,其特征在于,所述对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合具体包括:
对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合;
根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚;
对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。
分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
3.根据权利要求2所述的方法,其特征在于,所述依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合具体包括:
对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合具体包括:
从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板;
将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数;
判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续;
计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数;
计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数;
从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合;
从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行步骤:判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续。
5.根据权利要求4所述的方法,其特征在于,所述计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj)具体包括:
根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - &Pi; p j &Element; Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,Apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | &times; log &Sigma; i &Element; Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。
6.根据权利要求4所述的方法,其特征在于,所述计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk)具体包括:
利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数;
基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk间的依存路径相似度SimD(depj,depk),
SimD ( dep j , dep k ) = &Sigma; m = l n q m &times; d m &Sigma; m = l n q m 2 &times; &Sigma; m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,
Figure FDA0000433424460000052
是depj中各个依存关系出现个数的向量,是depk中各个依存关系的出现个数的向量;
基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = &Sigma; m = l n &prime; q &prime; m &times; d &prime; m &Sigma; m = l n &prime; q &prime; m 2 &times; &Sigma; m = l n &prime; q &prime; m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure FDA0000433424460000055
是synj中各个句法路径出现个数的向量,
Figure FDA0000433424460000056
是synk中各个句法路径出现个数的向量;
利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk间的实体类型相似度SimA(etj,etk):
Figure FDA0000433424460000057
综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk间的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)
其中,β是一个可调节的参数。
7.一种中文事件信息挖掘系统,其特征在于,包括原始文本分析模块、定义模块、处理模块、种子事件分析模块、事件锚获取模块和事件类型获取模块,其中:
所述原始文本分析模块,用于对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
所述定义模块,用于定义需要从所述原始文本中挖掘事件的N种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述N为不小于1的自然数;
所述处理模块,用于对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
所述种子事件分析模块,用于依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
所述事件锚获取模块,用于基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
所述事件类型获取模块,用于依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
8.根据权利要求7所述的系统,其特征在于,所述原始文本分析模块具体包括:
原始文本预处理模块,用于对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合;
候选事件锚选择模块,用于根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚;
候选实体选择模块,用于对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体;
候选模板获取模块,用于分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
9.根据权利要求8所述的系统,其特征在于,所述种子事件分析模块具体包括:
种子事件预处理模块,用于对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
种子模板获取模块,用于分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
10.根据权利要求9所述的系统,其特征在于,所述事件锚获取模块具体包括:
初始选择模块,用于从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板;
赋值模块,用于将所述原始文本中任意一个文档Doci的文档相关度DocRel(i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数n为0,其中i为自然数,1≤i≤M,M为所述原始文本中包含的文档数,M为不小于1的自然数;
判断模块,用于判断n的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续执行评级得分计算模块;
评级得分计算模块,用于计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj),其中,j为自然数,1≤j≤N,N为所述候选模板集合包括的候选模板个数;
相似度计算模块,用于计算所述候选模板集合中每个候选模板pj和所述种子模板集合中任一种子模板pk的候选模板相似度SimP(pj,pk),并选择取值最大的候选模板相似度作为所述候选模板pj的语义相似度FinSim(pj),其中,k为自然数,1≤k≤Z,Z为种子模板集合中种子模板的个数;
第一选择模块,用于从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合;
第二选择模块,用于从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
第三选择模块,用于从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
清空模块,用于把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;n加1,转至执行所述判断模块。
11.根据权利要求9所述的系统,其特征在于,所述评级得分计算模块具体包括:
精确度得分计算单元,用于根据候选模板pj所在文档和所述候选模板pj的相似模板所在文档的文档相关性,采用如下公式(1)计算所述候选模板pj的精确度得分Prec(pj):
Prec ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | - - - ( 1 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目;
文档相似度计算单元,用于根据每一文档在所述种子模板集合中存在的所有模板的精确度得分,利用如下公式(2)计算每个文档Doci新的文档相似度DocRel(i):
DocRel ( i ) = 1 - &Pi; p j &Element; Apt ( i ) ( 1 - Prec ( p j ) ) - - - ( 2 )
其中,Apt(i)为文档Doci中在所述种子模板集合中存在的所有模板集合;
评级得分计算单元,用于根据所述新的文档相似度,利用如下公式(3)计算所述候选模板集合中每个候选模板pj的评级得分RankP(pj):
RankP ( p j ) = &Sigma; i &Element; Doc ( p j ) DocRel ( i ) | Doc ( p j ) | &times; log &Sigma; i &Element; Doc ( p j ) DocRel ( i ) - - - ( 3 )
其中,Doc(pj)为包含所述候选模板pj和它的相似模板的文档集合;|Doc(pj)|为包含所述候选模板pj和它的相似模板的文档数目。
12.根据权利要求9所述的系统,其特征在于,所述相似度计算模块具体包括:
词汇语义相似度计算单元,用于利用如下公式(4)计算所述候选模板pj中候选事件锚aj和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT(aj,ak)=α/(α+d)   (4)
其中,d是候选模板pj的候选事件锚aj的义原和种子模板pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数;
依存路径相似度计算单元,用于基于夹角余弦法,利用如下公式(5)计算所述候选模板pj的依存路径depj和种子模板pk的依存路径depk间的依存路径相似度SimD(depj,depk)
SimD ( dep j , dep k ) = &Sigma; m = l n q m &times; d m &Sigma; m = l n q m 2 &times; &Sigma; m = l n d m 2 - - - ( 5 )
其中,n是depj和depk中不同的依存关系数目,是depj中各个依存关系出现个数的向量,是depk中各个依存关系的出现个数的向量;
句法路径相似度计算单元,用于基于夹角余弦法,利用如下公式(6)计算所述候选模板pj的句法路径synj和种子模板pk的句法路径synk间的句法路径相似度SimS(synj,synk),
SimS ( syn j , syn k ) = &Sigma; m = l n &prime; q &prime; m &times; d &prime; m &Sigma; m = l n &prime; q &prime; m 2 &times; &Sigma; m = l n &prime; q &prime; m 2 - - - ( 6 )
其中,n’是synj和synk中不同的句法路径数目,
Figure FDA0000433424460000112
是synj中各个句法路径出现个数的向量,
Figure FDA0000433424460000113
是synk中各个句法路径出现个数的向量;
实体类型相似度计算单元,用于利用如下公式(7)计算所述候选模板pj中实体的实体类型etj和种子模板pk中实体的实体类型etk间的实体类型相似度SimA(etj,etk):
Figure FDA0000433424460000114
候选模板相似度计算单元,综合所述句法路径相似度、依存路径相似度、实体类型相似度和词汇语义相似度,利用如下公式(8)计算所述候选模板pj和种子模板pk的候选模板相似度SimP(pj,pk):
SimP(pj,pk)=β×SimT(aj,ak)+(1-β)×SimA(etj,etk)×Max(SimD(depj,depk),SimS(synj,synk))   (8)
其中,β是一个可调节的参数。
CN201310664718.6A 2013-12-09 2013-12-09 一种中文事件信息挖掘方法和系统 Active CN103617280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310664718.6A CN103617280B (zh) 2013-12-09 2013-12-09 一种中文事件信息挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310664718.6A CN103617280B (zh) 2013-12-09 2013-12-09 一种中文事件信息挖掘方法和系统

Publications (2)

Publication Number Publication Date
CN103617280A true CN103617280A (zh) 2014-03-05
CN103617280B CN103617280B (zh) 2017-01-25

Family

ID=50167983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310664718.6A Active CN103617280B (zh) 2013-12-09 2013-12-09 一种中文事件信息挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN103617280B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391836A (zh) * 2014-11-07 2015-03-04 百度在线网络技术(北京)有限公司 处理用于句法分析的特征模板的方法及装置
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN104881404A (zh) * 2015-06-19 2015-09-02 苏州大学张家港工业技术研究院 一种事件关系检测方法及系统
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106339412A (zh) * 2016-08-12 2017-01-18 中国电子科技集团公司第二十八研究所 一种中文国际政治事件的参与者关系抽取方法
CN108595413A (zh) * 2018-03-22 2018-09-28 西北大学 一种基于语义依存树的答案抽取方法
US20190057163A1 (en) * 2017-08-18 2019-02-21 Sap Se Classification of log entry types
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN111125318A (zh) * 2019-12-27 2020-05-08 北京工业大学 基于义原-义项信息提升知识图谱关系预测性能的方法
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111581954A (zh) * 2020-05-15 2020-08-25 中国人民解放军国防科技大学 一种基于语法依存信息的文本事件抽取方法及装置
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN112084531A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 数据敏感程度分级方法、装置、设备及存储介质
CN113806486A (zh) * 2021-09-23 2021-12-17 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
CN116467430A (zh) * 2023-05-08 2023-07-21 北京科技大学 一种材料制备加工工艺信息文本挖掘方法及系统
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120019245A (ko) * 2010-08-25 2012-03-06 서강대학교산학협력단 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
CN102609436A (zh) * 2011-12-22 2012-07-25 北京大学 一种社交网络热词和事件挖掘系统及方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120019245A (ko) * 2010-08-25 2012-03-06 서강대학교산학협력단 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
CN102609436A (zh) * 2011-12-22 2012-07-25 北京大学 一种社交网络热词和事件挖掘系统及方法
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915345A (zh) * 2014-03-11 2015-09-16 华为技术有限公司 一种推荐服务信息的方法和终端
CN104915345B (zh) * 2014-03-11 2018-08-21 华为技术有限公司 一种推荐服务信息的方法和终端
CN104391836B (zh) * 2014-11-07 2017-07-21 百度在线网络技术(北京)有限公司 处理用于句法分析的特征模板的方法及装置
CN104391836A (zh) * 2014-11-07 2015-03-04 百度在线网络技术(北京)有限公司 处理用于句法分析的特征模板的方法及装置
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN104636466B (zh) * 2015-02-11 2020-07-31 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统
CN104881404A (zh) * 2015-06-19 2015-09-02 苏州大学张家港工业技术研究院 一种事件关系检测方法及系统
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106095748B (zh) * 2016-06-06 2019-08-27 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106339412A (zh) * 2016-08-12 2017-01-18 中国电子科技集团公司第二十八研究所 一种中文国际政治事件的参与者关系抽取方法
CN106339412B (zh) * 2016-08-12 2019-09-10 中国电子科技集团公司第二十八研究所 一种中文国际政治事件的参与者关系抽取方法
US20190057163A1 (en) * 2017-08-18 2019-02-21 Sap Se Classification of log entry types
US10726069B2 (en) * 2017-08-18 2020-07-28 Sap Se Classification of log entry types
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN109726726B (zh) * 2017-10-27 2023-06-20 北京邮电大学 视频中的事件检测方法及装置
CN108595413B (zh) * 2018-03-22 2021-11-09 西北大学 一种基于语义依存树的答案抽取方法
CN108595413A (zh) * 2018-03-22 2018-09-28 西北大学 一种基于语义依存树的答案抽取方法
CN110569494A (zh) * 2018-06-05 2019-12-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN111125318A (zh) * 2019-12-27 2020-05-08 北京工业大学 基于义原-义项信息提升知识图谱关系预测性能的方法
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111581954A (zh) * 2020-05-15 2020-08-25 中国人民解放军国防科技大学 一种基于语法依存信息的文本事件抽取方法及装置
CN112084531A (zh) * 2020-09-10 2020-12-15 杭州中奥科技有限公司 数据敏感程度分级方法、装置、设备及存储介质
CN112084531B (zh) * 2020-09-10 2024-05-17 杭州中奥科技有限公司 数据敏感程度分级方法、装置、设备及存储介质
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN113806486A (zh) * 2021-09-23 2021-12-17 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
CN113806486B (zh) * 2021-09-23 2024-05-10 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
CN116467430A (zh) * 2023-05-08 2023-07-21 北京科技大学 一种材料制备加工工艺信息文本挖掘方法及系统
CN116467430B (zh) * 2023-05-08 2023-09-19 北京科技大学 一种材料制备加工工艺信息文本挖掘方法及系统
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Also Published As

Publication number Publication date
CN103617280B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103617280B (zh) 一种中文事件信息挖掘方法和系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103530281B (zh) 一种论元抽取方法和系统
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN105868313B (zh) 一种基于模板匹配技术的知识图谱问答系统及方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN108280130A (zh) 一种在文本大数据中发现敏感数据的方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN104156352A (zh) 一种中文事件的处理方法及系统
CN113935502B (zh) 基于双重注意力机制的面向大坝应急工况事件抽取方法
CN103473283A (zh) 一种文本案例匹配方法
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN110533212A (zh) 基于大数据的城市内涝舆情监测预警方法
CN104156452A (zh) 一种网页文本摘要生成方法和装置
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN102117281A (zh) 一种构建领域本体的方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN104484433B (zh) 一种基于机器学习的图书本体匹配方法
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN110377680A (zh) 基于网络爬虫和语义识别的山洪灾害数据库构建及更新的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: 215000 floor 7, North building, Guofa building, No. 3118 Renmin Road, Gusu District, Suzhou City, Jiangsu Province

Patentee after: Suzhou big data Co.,Ltd.

Patentee after: Suzhou Big Data Trading Service Co.,Ltd.

Patentee after: Suzhou big data Research Institute Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University