CN112749548B - 一种基于规则的中文结构化金融事件缺省补全抽取方法 - Google Patents
一种基于规则的中文结构化金融事件缺省补全抽取方法 Download PDFInfo
- Publication number
- CN112749548B CN112749548B CN202011201846.3A CN202011201846A CN112749548B CN 112749548 B CN112749548 B CN 112749548B CN 202011201846 A CN202011201846 A CN 202011201846A CN 112749548 B CN112749548 B CN 112749548B
- Authority
- CN
- China
- Prior art keywords
- default
- event
- subject
- rule
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 230000000295 complement effect Effects 0.000 claims abstract description 53
- 230000004048 modification Effects 0.000 claims description 25
- 238000012986 modification Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 239000003607 modifier Substances 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 11
- 230000001960 triggered effect Effects 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 241000736562 Eresus Species 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 230000001364 causal effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003306 harvesting Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000024203 complement activation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于规则的中文结构化金融事件缺省补全抽取方法,属于信息抽取技术领域,结合缺省的“三个平面”理论界定,提出了四种常见的缺省结构;针对各种缺省结构,通过分析财经领域和句法语义依存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则,实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的难题。据了解本发明是第一个基于规则的中文结构化金融事件缺省补全抽取方法,不需要人工标注数据,且补全抽取的精确率和召回率较好。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于规则的中文结构化金融事件缺省补全抽取方法。
背景技术
面对每天产生的巨大数据,如何从这些数据中挖掘出有价值的知识,具有重大意义。作为信息抽取子领域的事件抽取,抽取的内容可以帮助事件使用者更合理地作出判断和决策。财经领域重点关注事件是何种行为动作,以及会带来何种影响结果,这对预测股市走势至关重要,而这些内容主要包含于语句的主谓宾中,因此针对财经领域,可抽取包含主谓宾的结构化金融事件。但是,介于中文语言多短句、多动词、多省略的特点,抽取的结构化事件存在大量的成分缺失,很大程度上影响事件的使用效果,所以需要对事件中实际存在但因缺省而无法抽取到的成分进行补全。
目前已有一些学者对开放域结构化事件抽取展开研究,Ding首次提出采用结构化事件预测股票价格波动,并采用信息开放技术抽取定义的四元组结构化事件,但该研究在抽取的事件谓语和论元上增加了较多限制,如谓语需要动词开始介词结束、主语必须处于谓语左边等,这些限制导致大量的事件被过滤掉了。
在后续的相关研究中,主流采用贝叶斯图形模型方法抽取结构化事件,但这些研究均假设一个文档中所有词都来源于一个单独事件,这对于短文本貌似成立,但对于长文本则不太合适。此外,贝叶斯图形模型常常依赖于用吉布斯抽样进行参数推断,这可能导致需要较长时间收敛。为了解决这些限制,Wang等人提出一个对抗-神经事件模型来抽取结构化事件。对于以上提到的方法,存在两点不足,一是需要大量人工标注数据用以模型训练,二是没有考虑抽取的事件成分缺失问题。其他对于结构化事件抽取研究中关于成分缺省补全的现在还比较少。
由于上述方法存在着较大的局限性,且较少研究考虑事件成分缺省补全问题,因此需要一种简单的、人工标注数据尽量少的事件缺省成分补全方法,以提高抽取的结构化事件的使用价值。
发明内容
本发明为解决上述问题,而提出的一种基于规则的中文结构化金融事件缺省补全抽取方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于规则的中文结构化金融事件缺省补全抽取方法,所述的结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,补全的成分为Sub和Obj,包含以下步骤:
A.分析中文语言缺省特征及人们的表达习惯,结合缺省的“三个平面”理论界定,提出四种常见缺省结构;
B.利用已有方法构建句法语义依存分析事件图;
C.针对各种缺省情况,结合财经领域和句法语义依存分析事件图中句法语义的特点,设计十种事件成分缺省补全规则;
D.分析句法语义依存分析事件图中每个事件的Sub和Obj,为每个存在缺省成分的结点建立其与缺省成分之间的依存关系;
E.扫描句法语义依存分析事件图中每个事件的核心动词(即事件谓语Pred),分别获取其孩子结点中句法依存关系为SBV的主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj,即完成ET形式的结构化金融事件缺省补全抽取。
进一步地,所述中文语言特征和人们表达习惯包括:
特征1.多短句、多分句、多动词、多名称、多主动、多省略,且有时采用连续的动词整体表达一个行为过程;
特征2.偏好采用动作行为的表达形式;
特征3.存在成分缺省的主要为主语和宾语,且缺省成分在语句中一般处于存在缺省的词语之前;
特征4.语句存在无主语情况,谓语包含及物动词和不及物动词,及物动词则必须存在宾语,不及物动词则无需宾语(即实际不存在宾语),真正的宾语缺省主要由介词或被动语态引发。
其中,主语或宾语为指代词的情况认定为存在主语或宾语,不属于缺省;主语或宾语实际不存在的情况认定属于缺省。
另外,所述的缺省的“三个平面”理论界定具体如下:
A.句法结构上界定:指结构中必不可少的成分没有出现的句法结构缺省;
B.语义结构上界定:指应该说出的意思没有说出来的语义缺省;
C.语用交际界定:指因语言环境需要的语用省略。
其中,所述四种常见缺省结构包括:
A.直接成分缺省,包括如下两种情况:
AA.简单缺省:缺省成分的结构简单,可单独作为其他事件的某个成分;
AB.组合缺省:某个组合的整体作为其他事件的某个成分。
B.介词引发缺省:由介词引发的部分成分缺失,即句法结构上可能不存在缺省,但语义上缺少由介词引导的部分成分;
C.被动语态缺省:由“被”字等介词引发的被动语态的成分缺省;
D.间接修饰缺省:语义上存在修饰关系的缺省结构。
进一步地,所述的已有方法构建句法语义依存分析事件图的步骤包括:
步骤1.利用句法依存分析工具和语义依存分析工具,分别生成句法依存分析树和语义依存分析树;
步骤2.通过向句法依存分析树中每个结点添加其在语义依存分析树对应的语句依存关系,构建句法语义依存分析树;
步骤3.调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,获得句法语义依存分析事件图。
其中,句法语义依存分析事件图,记为SSPEG=(V,E),V={,/>,…,/>},E={,/>,…,/>},其中/>表示事件ei包含的词语集合,/>表示事件ei包含词语的句法依存关系(dp)和语义依存关系(sdp)集合。
进一步地,所述的财经领域和SSPEG中句法语义特点包括:
特征5.财经领域中主要缺省企业、股票和机构团体等名称,其在句法分析中的词性以细分的名词居多,包括ni(机构团体)、nz(专有名词)、nh(人名)和j(简称),将这些词性组成的集合记为POL;
特征6.直接成分缺省为句法结构上的缺省,即句法结构上缺少某个成分,而间接修饰缺省属于语义上的缺省,句法结构上存在某个成分,但其语义不完整;
特征7.间接修饰缺省中,主要缺省修饰语,且常由公司或机构等充当,且位于描述本公司各项指标的定语中或直接代表默认指标(即充当主语);
特征8.共享主语的事件间的语义依存关系主要集中于因果(eResu)、顺承(eSucc)和目的(ePurp)关系,称为引发关系;
特征9.缺省成分一般处于成分缺省事件的前面的关联事件中;
特征10.在句法语义依存分析事件图中,缺省成分的层级常处于存在成分缺省结点的下一层,而对于间接修饰缺省,二者偶尔处于同一层级。
其中,所述的十种事件缺省补全规则具体如下:
A.直接成分缺省补全规则
规则1.如果由根结点触发的事件不存在具有语义依存关系的较早事件,则不必补全;
规则2.如果存在直接成分缺失,且sdp为非引发关系,若最近关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件的主语,补全缺省主语,即简单缺省补全;
规则3.如果存在直接成分缺失,且sdp为引发关系,若最近关联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语(关联事件第一个主语),补全缺省主语;
规则4.当最近关联事件的主语词性不属于POL,且主语存在定语时,则取主语第一个定语补全缺省主语;
规则5.当最近关联事件的主语词性不属于POL,且主语不存在定语,则取关联事件整体补全缺省主语,即组合缺失补全;
规则6.当最近关联事件的主语词性为名词或属于POL,则直接取关联事件主语补全缺省主语。
其中,规则1要求,补全操作的前提必须是共享主语的句子在当前事件之前发生,且存在语义依存关系。这符合语句表达逻辑。因此,规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp关系下的缺省补全情况。规则2和规则3均是依照人们使用语言的习惯,取关联事件中位于语句最前面的主语作为缺省补全。规则4~规则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的情景;对内则分析关联事件主语词性。
B.介词及被动语态缺省补全规则
规则7.如果为介词引发的成分缺省,且sdp为引发关系,则在最近关联事件中查找主语补全缺省的主语或宾语;
规则8.如果由被动语态引起的成分缺省,且sdp为引发关系,则取最近关联事件的主语作为缺省事件的宾语成分。
C.间接修饰缺省补全规则
规则9.如果关联事件主语的词性属于POL,且主语存在定语,同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远的定语(关联事件第一个定语),补全主语的缺省修饰部分;
规则10.如果关联事件主语的词性属于POL,且主语不存在定语,则取最近关联事件中距离本事件最远的主语(关联事件第一个主语),补全主语的缺省修饰部分。
其中,规则9和规则10一定程度上属于规则6的细化,且同时兼顾了规则4存在定语的情况。不同的是,规则6为句法结构不存在主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省。
进一步,所述的为每个事件中存在缺省成分的主语或宾语建立其与缺省成分之间的依存关系,具体步骤包括:
步骤4.扫描句法语义依存分析事件图,获取所有事件核心动词;
步骤5.扫描每个事件核心动词孩子结点,判断其中主语或宾语是否存在缺省,对于存在缺省的结点,分析其缺省类型;
步骤6.根据缺省类型,按照对应的缺省补全规则找寻缺省成分;
步骤7.为缺省成分与存在缺省的结点之间建立依存关系,依存关系建立的标准包括:
A.直接成分缺省:如果缺省主语,则添加(SBV,Agt),如缺省宾语,则添加(VOB,Pat),其中Pat为受事关系;
B.介词引发缺省:采用缺省事件中与介词关联成分相同的依存关系;
C.被动语态缺省:如果缺省为被动的受事者含义,则添加(VOB,Pat),如果为被动的施事者含义,则添加(SBV,Agt);
D.间接修饰缺省:如果缺省成分在自身事件中充当修饰成分,即句法依存关系为ATT,则采取缺省成分的依存关系,如果充当主语(即句法依存关系为SBV),则添加依存关系(ATT,Nmod)。
最后,基于句法语义依存分析事件图,首先获取语句中包含的所有事件核心动词(即事件谓语Pred),扫描每个事件核心动词的其孩子结点,分别获取句法依存关系为SBV的主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj,即完成ET形式的结构化金融事件缺省补全抽取。
与现有技术相比,本发明提供了一种基于规则的中文结构化金融事件缺省补全抽取方法,具备以下有益效果:
1.本发明的有益效果是:本发明结合缺省的“三个平面”理论界定,提出了四种常见的缺省结构;针对各种缺省结构,通过分析财经领域和句法语义依存分析事件图中句法语义特点,设计了十种事件成分缺省补全规则,实现了事件缺省成分的补全,解决了抽取的事件成分存在大量缺失的难题。本发明不需要人工标注数据,且补全抽取的精确率和召回率较好。
附图说明
图1为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的流程框架图;
图2为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例3的句法依存分析树图;
图3为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例3的语义依存分析树图;
图4为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例3的句法语义依存分析图。
图5为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的经核心动词调整后的句法语义依存分析事件图;
图6为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的经介词结构调整后的句法语义依存分析事件图;
图7为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例1的简单缺省结构的句法语义依存分析事件图;
图8为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例2的组合缺省结构的句法语义依存分析事件图;
图9为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例3的介词引发缺省结构的句法语义依存分析事件图;
图10为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例4的经核心动词和介词调整后的句法语义依存分析事件图;
图11为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的被动语态缺省结构的句法语义依存分析事件图;
图12为本发明提出的一种基于规则的中文结构化金融事件缺省补全抽取方法的例5的中间接修饰缺省结构的句法语义依存分析事件图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1:
本发明的过程如图1所示,具体过程如下。
1.四种常见缺省结构
针对中文语言中的缺省,研究成果并不多,且定义及范围没有统一的标准。随着中文语法学中“三个平面”理论(语法,语义,语用)的提出,语法学者对缺省从认知角度有了如下三种基本认识。
A.句法结构上界定:指结构中必不可少的成分没有出现的句法结构省略。
B.语义结构上界定:指应该说出的意思没有说出来的语义省略。
C.语用交际界定:指因语言环境需要的语用省略。其中,语言环境涉及较为广泛,可以是社会文化背景、语言上下文或交际的现场情景。
随后较多学者基于中文宾州树库(Chinese TreeBank, CTB)和Ontonotes3.0等语料库划分的缺省类别进行研究,主要包含6类缺省,如表1所示。其中,NONE-*T*、NONE-*PRO*和NONE-*pro*占比最大。
表1CTB及Ontonotes3.0中缺省分类
根据上述分类规则并结合财经领域语料特点,将事件成分缺省分成以下四种结构:
A.直接成分缺省,包括如下两种情况:
AA.简单缺省:缺省成分结构简单,可单独作为其它事件的某个成分(如主语。
例1.“某国首相让步,考虑他国担保协议”。该示例包含事件ET1(某国首相,让步,)和事件ET2(,考虑,他国担保协议)。其中,事件ET1中简单主语成分“某国首相”作为事件ET2的主语,因此该示例属于简单缺省。
AB.组合缺省:某个组合整体作为其它事件的某个成分。
例2.“油价再遭痛击,拖累期市”。该示例则为组合缺省。其中,事件ET3(油价,遭,痛击)整体作为事件ET4(,拖累,期市)中“拖累”缺失的主语。
B.介词引发缺省:由介词引发的部分成分缺失,即句法结构上可能不存在缺省,但语义上缺少由介词引导的部分成分。
例3.“某动力飙近21%,与某能源达战略性合作框架”。示例3包含2个事件:ET5(某动力,飙近,21%)和ET6(某能源,达,战略性合作框架)。其中,ET6存在由介词“与”引发的部分主语缺省,缺少了部分主语“某动力”,因此属于介词引发缺省。
C.被动语态缺省:由“被”字等介词引发的被动语态的成分缺省。
例4.“某投资未披露基金运作情况,被监管责令改正”。该示例存在“被”字,属于被动语态缺省。其中,事件ET8(监管,责令,改正)由“被”字触发导致宾语“某投资”成分缺失,该缺失成分包含于事件ET7(某投资,披露,基金运作情况)中。
D.间接修饰缺省:语义上存在修饰关系的缺省结构。间接修饰缺省主要是反映事件间论元之间关系,充当修饰作用的一般为关联事件的主语或其主语的定语。
例5.“某公司营收增速首次跌30%,年内市值蒸发400亿美元”。该示例包含事件ET9(某公司营收增速,跌,30%)和事件ET10(市值,蒸发,400亿美元)。其中,事件ET10已经存在主语“市值”,从句法结构上不存在缺省,但在语义上事件ET10并不完备,主语“市值”因缺少事件ET9中主语“营收增速”修饰词“某公司”,使得其语义不明确,降低了事件使用价值。
2.句法语义依存分析事件图:
针对每条本文语句,均可为其生成一个句法语义依存分析事件图(SSPEG),具体步骤包括:
步骤1.利用句法依存分析和语义依存分析工具,分别生成句法依存分析树和语义依存分析树;
步骤2.通过向句法依存分析树中每个结点添加其在语义依存分析树对应的语句依存关系,构建句法语义依存分析树,具体步骤如下:
A.事件核心动词间语义依存关系
步骤A1.对DP树进行剪枝,只保留主语、核心动词和宾语等主干成分,减少DP树中的结点数量;
步骤A2.对剪枝后的DP树进行语义依存分析,获取核心动词间语义关联;
步骤A3.将获取的语义关联添加至原始DP树中。
其中,核心动词代表事件,事件间的语义依存关系采用eXX(如eCoo)表示,对于核心动词间非eXX关系的情况,在依赖的孩子结点中查询获取,并作为核心动词间语义关联。
B.事件非核心动词间语义依存关系
B1.对于DP树与SDP树中依存结构相同的结点,将其语义依存关系直接添加至DP树中;
B2.对于DP树与SDP树中依存结构不相同的结点,其语义依存关系添加为“NULL”。
步骤3.调整句法语义依存分析树中事件核心动词、介词和被动语态的依存结构,获得句法语义依存分析事件图,具体调整如下:
调整1.将除直接依存于根结点的事件核心动词外的所有事件核心动词调整为根结点的直接孩子结点,依存关系为(HED,Root);
调整2.将依存于介词的主语或宾语调整为直接依存于所属事件核心动词,依存关系则按照以下标准获取:
(1)调整后的语义依存关系采用语义依存分析树中该调整结点的语义依存关系;
(2)句法依存关系则根据调整后的语义依存关系的语义含义调整,如果属于主语含义,则调整为SBV,如果为宾语含义,则为VOB,否则保持原有句法依存关系。
调整3.将被动语态涉及的主语和宾语调整为主动语态下主语和宾语。
通过以上步骤即可为输入语句构建一个句法语义依存分析事件图。以例3中语句为例,借助句法和语义依存分析工具LTP,可生成图1和图2所示的句法依存分析树和语义依存分析树。图3为其对应的句法语义依存树,图4是图3经核心动词调整后的SSPEG,图5则为图4经介词结构调整后的SSPEG。
3.缺省结构的SSPEG
对于本发明提出的四种常见缺省结构,其对应的SSPEG分别如下:
A.直接成分缺省
例1为简单缺省,其缺省结构的SSPEG如图6所示。其中,ePurp代表目的关系,每个事件用虚线框标识,缺省成分与存在缺省的结点之间采用点横相间的有向虚线连接,表示其层级关系,依存关系添加为(SBV,Agt)。
例2属于组合缺省,该示例缺省结构的SSPEG如图7所示。其中,事件ET3(油价,遭,痛击)整体与事件ET4(,拖累,期市)中“拖累”结点建立(SBV,Agt)依存关系。
B.介词引发缺省
图8为例3中介词引发缺省结构的SSPEG。其中,介词“与”属于并列含义的介词,引导关联“某动力”和“某能源”,因此“某动力”与“达”之间应建立上下层的依存关系,其值采用“某能源”和“达”之间的依存关系(SBV,Datv)。另外,“某动力”和“与”之间也需要建立依存关系,其值则和“与”与“某能源”之间的依存关系保持一致,添加为(POB,NULL)。
C.被动语态缺省
对于例4,图9为其经核心动词和介词调整后的SSPEG。图10为图9中被动语态缺省结构的SSPEG。其中,“被”字属于被动含义的介词,缺省成分为宾语含义,因此图10添加了“某投资”结点和“责令”结点之间的依存关系(VOB,Pat)。
D.间接修饰缺省
图11为例5中间接修饰缺省结构的SSPEG。由图11可知,该示例中事件ET5本身存在主语“营收增速”,“某公司”只为其的修饰语,在这种缺省情况下,可直接采用“某公司”的依存关系作为新增的依存关系,但如果“某公司”作为事件主语,如语句“某公司跌30%,年内市值蒸发400亿美元”,则使用其依存关系可能存在错误。
综上所述,上述缺省结构因缺省成分的角色复杂多变,难以以某个具体结点的依存关系作为新增的依存关系,因此按照以下标准添加依存关系:
(1)直接成分缺省:如果缺省主语,则添加(SBV,Agt),如缺省宾语,则添加(VOB,Pat),其中Pat为受事关系;
(2)介词引发缺省:采用与缺省事件中介词关联成分相同的依存关系;
(3)被动语态缺省:如果缺省为被动的受事者含义,则添加(VOB,Pat),如果为被动的施事者含义,则添加(SBV,Agt);
(4)间接修饰缺省:如果缺省成分在自身事件中充当修饰成分,即句法依存关系为ATT,则采取缺省成分的依存关系,如果充当主语(即句法依存关系为SBV),则添加依存关系(ATT,Nmod)。
4.缺省补全规则
通过对缺省结构的SSPEG分析可知,补全缺省成分可在与本事件时间最近的早期事件中查找,但并非所有缺省都需进行补全,如语句本身无主语情况。因此,何时启动缺省补全机制、如何获取补全内容,是缺省补全的两大难点,尤其是间接修饰缺省,无法从句法结构上进行判断,必须借助语义分析。对于不同的缺省类型,其补全启动时机和规则也不尽相同。
根据前述的中文语言特征、财经领域特点和句法语义依存分析事件图中句法语义特点,调整后句法语义依存分析事件图中已不存在宾语缺省,因此针对提出的缺省结构,制定了以下缺省补全规则进行主语补全。
A.直接成分缺省补全规则
直接成分缺省属于句法结构上的缺省,通过扫描事件核心动词的孩子结点即可判断是否存在该类型缺省,但由于存在语句本身无主语情况,所以还需联合语义依存关系共同分析,具体规则如下:
规则1.如果由根结点触发的事件不存在具有语义依存关系的较早事件,则不必补全;
规则2.如果存在直接成分缺失,且sdp为非引发关系,若最近关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件的主语,补全缺省主语,即简单缺省补全;
规则3.如果存在直接成分缺失,且sdp为引发关系,若最近关联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语(关联事件第一个主语),补全缺省主语;
规则4.当最近关联事件的主语词性不属于POL,且主语存在定语时,则取主语第一个定语补全缺省主语;
规则5.当最近关联事件的主语词性不属于POL,且主语不存在定语,则取关联事件整体补全缺省主语,即组合缺失补全;
规则6.当最近关联事件的主语词性为名词或属于POL,则直接取关联事件主语补全缺省主语。
其中,规则1要求,补全操作的前提必须是共享主语的句子在当前事件之前发生,且存在语义依存关系。这符合语句表达逻辑。因此,规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp关系下的缺省补全情况。规则2和规则3均是依照人们使用语言的习惯,取关联事件中位于语句最前面的主语作为缺省补全。规则4~规则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的情景;对内则分析关联事件主语词性。
B.介词及被动语态缺省补全规则
对于介词引发的缺省,其介词常为连接多个名词性词语的并列介词,因此缺省事件在句法结构上可能存在部分成分,简单地从句法结构上已经难以判断,所以也需借助语义依存关系,具体规则包括:
规则7.如果为介词引发的成分缺省,且sdp为引发关系,则在最近关联事件中查找主语补全缺省的主语或宾语;
规则8.如果由被动语态引起的成分缺省,且sdp为引发关系,则取最近关联事件的主语作为缺省事件的宾语成分。
C.间接修饰缺省补全规则
间接修饰缺省属于语义上的缺省,主要是缺少了限定范围的修饰语,所以必须从语义角度进行补全。通过分析发现,如果事件缺省成分本身已经存在主语,且词性属于POL,则很大可能说明主语已经限定了范围,很少存在缺省(即无需补全),而当词性不属于POL,则因应启动补全机制,具体补全规则如下:
规则9.如果关联事件主语的词性属于POL,且主语存在定语,同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远的定语(关联事件第一个定语),补全主语的缺省修饰部分;
规则10.如果关联事件主语的词性属于POL,且主语不存在定语,则取最近关联事件中距离本事件最远的主语(关联事件第一个主语),补全主语的缺省修饰部分。
其中,规则9和规则10一定程度上属于规则6的细化,且同时兼顾了规则4存在定语的情况。不同的是,规则6为句法结构不存在主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省。
综上所述,对于输入语句,首先为其建立句法语义依存分析事件图,然后通过分析事件图中每个事件的主语和宾语,获取其缺省类型,再利用缺省类型对应的补全规则找寻到缺省成分,并为缺省成分和存在缺省的结点建立依存关系,最后通过扫描所有事件的主语、谓语和宾语,将事件核心动词作为事件谓语Pred、句法依存关系为SBV的主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj,即实现了基于ET形式的中文金融事件成分缺省补全抽取。
5.事件成分缺省补全实验
为了考察事件缺省成分的补全抽取效果,使用精确率(precision)、召回率(recall)和F1值作为评价指标。计算方式如下:
其中,CEQ为正确抽取数,EQ为抽取数,LQ为标注数。可以看出,精确率反映的是抽取结果的准确情况,召回率反映的是抽取结果在样本中的召回情况。
为了验证事件缺省补全的效果,我们选择了公司1和东方财富网的新闻文本数据,分别对事件主语补全和事件宾语补全做了实验,实验结果如表1所示。
表1事件主语和事件宾语补全抽取的效果
实验证明本发明提出的基于规则的中文结构化金融事件缺省补全抽取效果较好,宾语因其缺省形式比较常规,主要由介词和被动语态引起,规则容易总结,且适用性较好,所以补全抽取的效果高于主语补全抽取。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于规则的中文结构化金融事件缺省补全抽取方法,其特征在于,包括以下步骤:结构化事件记为:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分别表示事件的主语、谓语和宾语,补全的成分为Sub和Obj;
S1. 分析中文语言缺省特征及人们的表达习惯,结合缺省的“三个平面”理论界定,提出四种常见缺省结构;
四种常见缺省结构包括:
C1. 直接成分缺省,包括如下两种情况:
C11. 简单缺省:缺省成分的结构简单,可单独作为其他事件的某个成分;
C12. 组合缺省:某个组合的整体作为其他事件的某个成分;
C2. 介词引发缺省:由介词引发的部分成分缺失,即句法结构上可能不存在缺省,但语义上缺少由介词引导的部分成分;
C3. 被动语态缺省:由“被”字介词引发的被动语态的成分缺省;
C4. 间接修饰缺省:语义上存在修饰关系的缺省结构;
S2. 利用已有方法构建句法语义依存分析事件图;
S3. 针对各种缺省情况,结合财经领域和句法语义依存分析事件图中句法语义特点,设计十种事件成分缺省补全规则;
财经领域和句法语义依存分析事件图中句法语义特点包括:
D1. 财经领域中主要缺省企业、股票和机构团体名称,其在句法分析中的词性以细分的名词居多,包括机构团体ni、专有名词nz、人名nh和简称j,将这些词性组成的集合记为POL;
D2. 直接成分缺省为句法结构上的缺省,即句法结构上缺少某个成分,而间接修饰缺省属于语义上的缺省,句法结构上存在某个成分,但其语义不完整;
D3. 间接修饰缺省中,主要缺省修饰语,且常由公司或机构充当,且位于描述本公司各项指标的定语中,或直接代表默认指标,即充当主语;
D4. 共享主语的事件间的语义依存关系主要集中于因果eResu、顺承eSucc和目的ePurp关系,称为引发关系;
D5. 缺省成分一般处于成分缺省事件的前面的关联事件中;
D6. 在句法语义依存分析事件图中,缺省成分的层级常处于存在成分缺省结点的下一层,而对于间接修饰缺省,二者偶尔处于同一层级;
十种事件缺省补全规则具体如下;
直接成分缺省补全规则包括:
规则1. 如果由根结点触发的事件不存在具有语义依存关系sdp的较早事件,则不必补全;
规则2. 如果存在直接成分缺失,且sdp为非引发关系,若最近关联事件只存在一个主语,则在最近的关联事件中查询获取关联事件的主语,补全缺省主语,即简单缺省补全;
规则3. 如果存在直接成分缺失,且sdp为引发关系,若最近关联事件存在多个主语,则取最近关联事件中距离当前事件最远的主语,即关联事件第一个主语,补全缺省主语;
规则4. 当最近关联事件的主语词性不属于POL,且主语存在定语时,则取主语第一个定语补全缺省主语;
规则5. 当最近关联事件的主语词性不属于POL,且主语不存在定语,则取关联事件整体补全缺省主语,即组合缺失补全;
规则6. 当最近关联事件的主语词性为名词或属于POL,则直接取关联事件主语补全缺省主语;
其中,规则1要求,补全操作的前提必须是共享主语的句子在当前事件之前发生,且存在语义依存关系,这符合语句表达逻辑;因此,规则1是其它缺省规则执行的前提;规则2和规则3分别讨论不同sdp关系下的缺省补全情况,规则2和规则3均是依照人们使用语言的习惯,取关联事件中位于语句最前面的主语作为缺省补全;规则4~规则6,对外是规则3的互补形式,讨论sdp为引发关系但主语唯一的情景;对内则分析关联事件主语词性;
介词及被动语态缺省补全规则包括:
规则7. 如果为介词引发的成分缺省,且sdp为引发关系,则在最近关联事件中查找主语补全缺省的主语或宾语;
规则8. 如果由被动语态引起的成分缺省,且sdp为引发关系,则取最近关联事件的主语作为缺省事件的宾语成分;
间接修饰缺省补全规则包括:
规则9. 如果关联事件主语的词性属于POL,且主语存在定语,同时定语的词性也属于POL,则在最近关联事件中取距离本事件最远的定语,即关联事件第一个定语,补全主语的缺省修饰部分;
规则10. 如果关联事件主语的词性属于POL,且主语不存在定语,则取最近关联事件中距离本事件最远的主语,即关联事件第一个主语,补全主语的缺省修饰部分;
其中,规则9和规则10一定程度上属于规则6的细化,且同时兼顾了规则4存在定语的情况;不同的是,规则6为句法结构不存在主语时的缺省补全,而规则9和规则10是解决存在主语的修饰缺省;
S4. 分析句法语义依存分析事件图中每个事件的Sub和Obj,为每个存在缺省成分的结点建立其与缺省成分之间的依存关系;
S5. 扫描句法语义依存分析事件图中每个事件的核心动词,即事件谓语Pred,分别获取其孩子结点中句法依存关系为SBV的主语作为事件的主语Sub、句法依存关系为VOB的宾语作为事件的Obj,即完成ET形式的结构化金融事件缺省补全抽取。
2.根据权利要求1所述的基于规则的中文结构化金融事件缺省补全抽取方法,其特征在于:所述S1中的中文语言缺省特征和人们表达习惯包括:
A1. 多短句、多分句、多动词、多名称、多主动和多省略,且有时采用连续的动词整体表达一个行为过程;
A2. 偏好采用动作行为的表达形式;
A3. 存在成分缺省的主要为主语和宾语,且缺省成分在语句中一般处于存在缺省的词语之前;
A4. 语句存在无主语情况,谓语包含及物动词和不及物动词,及物动词则必须存在宾语,不及物动词则无需宾语,真正的宾语缺省主要由介词或被动语态引发;
其中,主语或宾语为指代词的情况认定为存在主语或宾语,不属于缺省;主语或宾语实际不存在的情况则认定属于缺省。
3.根据权利要求1所述的基于规则的中文结构化金融事件缺省补全抽取方法,其特征在于:所述S1中的缺省的“三个平面”理论界定具体如下:
B1. 句法结构上界定:指结构中必不可少的成分没有出现的句法结构缺省;
B2. 语义结构上界定:指应该说出的意思没有说出来的语义缺省;
B3. 语用交际界定:指因语言环境需要的语用省略。
4.根据权利要求1所述的基于规则的中文结构化金融事件缺省补全抽取方法,其特征在于:所述S4中的为每个存在缺省成分的结点建立其与缺省成分之间的依存关系,具体步骤包括:
N1. 扫描句法语义依存分析事件图,获取所有事件核心动词;
N2. 扫描每个事件核心动词孩子结点,判断其中主语或宾语是否存在缺省,对于存在缺省的结点,分析其缺省类型;
N3. 根据缺省类型,按照对应的缺省补全规则找寻缺省成分;
N4. 为缺省成分与存在缺省的结点之间建立依存关系,其中依存关系建立的标准包括:
E1. 直接成分缺省:如果缺省主语,则添加SBV和Agt,如缺省宾语,则添加VOB和Pat,其中Pat为受事关系,Agt为施事关系;
E2. 介词引发缺省:采用缺省事件中与介词关联成分相同的依存关系;
E3. 被动语态缺省:如果缺省为被动的受事者含义,则添加VOB和Pat,如果为被动的施事者含义,则添加SBV和Agt;
E4. 间接修饰缺省:如果缺省成分在自身事件中充当修饰成分,即句法依存关系为ATT,则采取缺省成分的依存关系,如果充当主语即句法依存关系为SBV,则添加依存关系ATT和Nmod。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201846.3A CN112749548B (zh) | 2020-11-02 | 2020-11-02 | 一种基于规则的中文结构化金融事件缺省补全抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011201846.3A CN112749548B (zh) | 2020-11-02 | 2020-11-02 | 一种基于规则的中文结构化金融事件缺省补全抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749548A CN112749548A (zh) | 2021-05-04 |
CN112749548B true CN112749548B (zh) | 2024-04-26 |
Family
ID=75648886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011201846.3A Active CN112749548B (zh) | 2020-11-02 | 2020-11-02 | 一种基于规则的中文结构化金融事件缺省补全抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749548B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004075466A2 (en) * | 2003-02-14 | 2004-09-02 | Nervana, Inc. | Semantic knowledge retrieval management and presentation |
WO2011051970A2 (en) * | 2009-10-28 | 2011-05-05 | Tata Consultancy Services Ltd. | Method and system for obtaining semantically valid chunks for natural language applications |
US9323644B1 (en) * | 2015-09-30 | 2016-04-26 | Semmle Limited | Query-based software dependency analysis |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102143707B1 (ko) * | 2013-10-11 | 2020-08-11 | 브이아이디 스케일, 인크. | Hevc 확장을 위한 하이 레벨 구문 |
-
2020
- 2020-11-02 CN CN202011201846.3A patent/CN112749548B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004075466A2 (en) * | 2003-02-14 | 2004-09-02 | Nervana, Inc. | Semantic knowledge retrieval management and presentation |
WO2011051970A2 (en) * | 2009-10-28 | 2011-05-05 | Tata Consultancy Services Ltd. | Method and system for obtaining semantically valid chunks for natural language applications |
US9323644B1 (en) * | 2015-09-30 | 2016-04-26 | Semmle Limited | Query-based software dependency analysis |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
基于语言学的依存分析结果动宾关系补全研究;张丹;周俏丽;张桂平;;计算机应用研究(第04期);108-111 * |
张丹 ; 周俏丽 ; 张桂平 ; .基于语言学的依存分析结果动宾关系补全研究.计算机应用研究.2017,(第04期),108-111. * |
Also Published As
Publication number | Publication date |
---|---|
CN112749548A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pasunuru et al. | Efficiently summarizing text and graph encodings of multi-document clusters | |
Maekawa et al. | Balanced corpus of contemporary written Japanese | |
Yoo et al. | Automating the expansion of a knowledge graph | |
Leech | New resources, or just better old ones? The Holy Grail of representativeness | |
CN108763333A (zh) | 一种基于社会媒体的事件图谱构建方法 | |
US20170364503A1 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
US20150057992A1 (en) | Exhaustive automatic processing of textual information | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
Sharoff | Methods and tools for development of the Russian Reference Corpus | |
Abdelnabi et al. | Generating UML class diagram using NLP techniques and heuristic rules | |
Popping | Online tools for content analysis | |
Baykara et al. | Abstractive text summarization and new large-scale datasets for agglutinative languages Turkish and Hungarian | |
Tachicart et al. | Moroccan Arabic vocabulary generation using a rule-based approach | |
Banerjee et al. | Dblp-quad: A question answering dataset over the dblp scholarly knowledge graph | |
CN112749548B (zh) | 一种基于规则的中文结构化金融事件缺省补全抽取方法 | |
Al-Anzi et al. | A micro-word based approach for arabic sentiment analysis | |
Fudholi et al. | Ontology-based information extraction for knowledge enrichment and validation | |
Fridlund et al. | Codifying the Debates of the Riksdag: Towards a Framework for Semi-automatic Annotation of Swedish Parliamentary Discourse. | |
Hellwig et al. | Data-driven dependency parsing of Vedic Sanskrit | |
Reyes-Ortiz et al. | Enhancing patterns with linguistic information for criminal event recognition | |
Yeh et al. | Ontology‐based speech act identification in a bilingual dialog system using partial pattern trees | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
CN107766332A (zh) | 一种语言模板构建方法及装置 | |
Görög et al. | Legal entity recognition in an agglutinating language and document connection network for EU Legislation and EU/Hungarian Case Law | |
Abera et al. | Information extraction model for afan oromo news text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |