CN114036955B - 中心词跨句事件论元检测方法 - Google Patents
中心词跨句事件论元检测方法 Download PDFInfo
- Publication number
- CN114036955B CN114036955B CN202111278186.3A CN202111278186A CN114036955B CN 114036955 B CN114036955 B CN 114036955B CN 202111278186 A CN202111278186 A CN 202111278186A CN 114036955 B CN114036955 B CN 114036955B
- Authority
- CN
- China
- Prior art keywords
- word
- argument
- words
- vector
- central
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出的一种中心词跨句事件论元检测方法,能够减少跨句论元检测复杂度、提高准确率。通过下述技术方案实现:语料预处理建立候选中心词集、计算候选中心词及触发词的浅层语义向量、深层语义向量,基于双仿射变换神经网络模型检测到触发词关联依存弧,基于再一次双仿射变换检出触发词对应中心词并完成论元分类;从中心词‑论元类别集中取中心词,从中心词的临近词语中检测出论元,将其动态词、位置向量拼接后输入多层感知机MLP模型,实现特征建模,通过MLP模型计算出中心词的临近词作为论元边界词的归一化概率值,确定论元边界,得到完整的事件论元。选择概率最大的词作词语集合拼接作为中心词对应的完整论元,完成跨句的事件论元检测。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及文本事件检测技术下的一种基于中心词的论元检测技术。
背景技术
中文是一种话题结构的语言,其表达方式比较灵活,与印欧语言不同,汉语的句子往往是由多个分句组成的复句。但句法结构不如英文严谨,导致了事件中论元与触发词的关系较松散。与跨句事件抽取旨在如何同时识别篇章内多个事件。但目前的中文语义角色的标注语料和标注系统并没有对现代汉语的这个特点给予充分的重视。由于数据稀疏的问题,对于与动词跨分句的论元还没有一个有效的识别方法,直接影响了汉语真实文本语义角色标注的研究。跨句多元关系、隐含关系不能很好解决。对nlp处理工具依赖较大。
在语言学中,将词语表示为向量的技术的单词嵌入有两种不同的风格,一种是将单词表示为共同出现的单词的向量,另一种是将单词表示为单词出现的语言上下文的向量。大多数新词嵌入技术依赖于神经网络架构而不是更传统的n-gram模型和无监督学习。词向量(Wordembedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。“中心词分析法”是汉语传统的单句分析方法,又叫句子成分分析法或多分法。是汉语语法研究中最早使用的句法分析方法。它有便于显示句子的主干与枝叶,辨识句子的正误,便于揭示句子的内部结构规律,归纳句型,且易于操作的六种基本成分:主语、谓语、宾语、定语、状语、补语,并要求一个单句应有并且只能有一个中心。另一个析句方法是层次分析法(也叫直接成分分析法或二分法)。它具有多个连续实体的短语,如果是修饰关系,只有短语中心词才是论元,该中心词大多对应短语最后一个实体;如果是并列关系,要么都是论元,要么都不是论元。但目前的中文语义角色的标注语料和标注系统并没有对现代汉语的这个特点给予充分的重视。由于数据稀疏的问题,对于与动词跨分句的论元还没有一个有效的识别方法。
篇章的基本构成单位是事件,每个事件内部存在一个语义结构,同时,篇章内部事件之间也存在相互关系,这些事件本体之间的相互关系构成了篇章语义关系的雏形---事件链。事件结构表示为谓词及其论元结构,为篇章事件链的标注奠定了基础。篇章的语义分析通过实践和事件链的分析实现。事件抽取是信息抽取领域中一项重要且具有挑战性的任务。事件抽取通常定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。根据事件的定义可知,它是由三个子任务组成的。特别地,第一个任务是识别出句子中的实体(EMD),第二个任务是要识别出句子中的触发词并对其分类(EventDetection-ED),最后,在第三个任务中是要识别出触发词和实体的具体关系,并正确分类出实体在事件充当的角色(ARP)。之前的大部分事件抽取工作采取了简化方法,只关注其中一个或者两个任务,要么使用标注好的实体信息,要么完全忽略实体信息。其中一个重要问题就是会导致错误传递,上一个任务出现的错误会继续向下一个任务进行传递,造成后来任务的性能低下。另外,事件抽取中的流线型模型没有任何机制来捕获各子任务间的依赖和交互性,以便后一个任务可以提高前一个任务的决策正确性。另一个方面,前面的子任务只能通过离散输出与后面的任务进行通信,无法传播更深层次的信息到后面的任务中。事件抽取的目标即自动化的从非结构化的信息中完成上述信息的获取,并结构化进行展示,其可以为知识库构建,问答以及语言理解任务提供有效的结构化信息。先前的事件抽取工作中假设实体已经人工标注好,主要集中在触发词和论元抽取两个任务中。实体信息通常由命名实体工具抽取出往往是不现实的,这会导致错误信息传递到触发词抽取和论元抽取任务中。只有少数工作将实体识别、触发词抽取和论元抽取三个任务联合起来,只使用一个模型抽取出三者的信息。但是,上述工作采用离散的特征工程表示单任务和各任务之间交互关系的上下文信息具有局限性。
文档级别事件抽取任务包含论元角色识别任务、名词短语共指消解以及事件追踪,即判断抽取的论元属于文档中的哪个事件。通常论元角色识别任务,是根据预先定义的事件类型以及对应的事件类型所包含的角色,将一个文档中论元识别出来并填充至相应的角色中。由于一个事件的论元分散在了多个句子当中,一个事件的论元分散在多个句子当中和一个文档中可能包含多个事件。单从句子层面进行事件抽取难以克服。以经常用来做实验的公开数据集事件,需要针对文档事件抽取任务构建数据集。事件抽取包括识别事件触发词,并明确所触发事件的类型的事件触发词检测和识别触发事件的属性,并标注各属性对应角色属性抽取两个子任务。当下,事件触发词检测任务面临着如下:(1)句子上下文表示及篇章级信息整合。候选触发词类型的判定一般需要结合上下文信息,包括关联实体信息(类型等)、其他候选触发词等。(2)句内和句间事件关联性建模。建模事件之间依赖对于同时抽取句子、跨句多事件尤为重要。现有方法主要专注于句子级事件抽取,忽略了存在于其他句子中的信息。传统的事件抽取任务大多数基于句子层面,这样具有很明显的缺陷:一个事件会涉及到触发词和多个论元,实际情况中,很少会有触发词和所有的论元都出现在一个句子中的理想情况,所以如果在实际的文本中,孤立的从单个句子抽取,很可能会得不到完整的事件信息。抽取存在着训练数据不足的缺陷。文档级事件抽取任务无法利用句子层面的抽取方法得到解决,最主要的原因便是一个事件的论元分散在了不同的句子当中,因此如何获取跨句子信息就显得较为重要,以往的方法均是将一个句子作为输入,获得该句子的事件元素。因此最直接的想法便是将整篇文档作为输入,输出事件元素,但实验证明该该种方法效果不佳,XinyaDuetal.工作表明,随着输入长度的增加,即一次输入一个句子、k个句子(k=2,3,4)以及整篇文档,准确率呈现先上升后下降,而召回率呈现先下降后上升,最终F1值并没有得到提升,该工作表明文档级事件抽取不仅要关注文档级上下文,句子级上下文也同样重要。从语义层面上来看句子囊括了这个事件的最多的要素和信息,比如包含触发词以及较多的论元。DCFEE通过寻找中心句然后补充的思路一定程度上解决了论元分散的问题,但是却忽略了实际情况中一个文档可能会包含多个事件的情况,在ShunZhengetal.的工作中,为了比较自己工作与DCFEE,通过改进DCFEE得到了DCFEE-M,DCFEE-M会产生多个部分正确的事件,但是DCFEE-M的论元补全阶段是上下文无关的,对于不同的句子多次提及同一事件的环境下,DCFEE模型的中心句检测模块无法有效地区分重复的事件实例,造成抽取事件冗余,而且当一个文档由多个简单的句子片段构成时,事件的论元散落在各个句子中,DCFEE模型无法有效地将这些零碎的信息整合起来识别完整的事件论元及事件角色。
事件论元(EventArgument)指的是参与事件发生的要素,由实体构成。实体(Entity)则是指具有特定语义的基本单元,如时间、人物、地点、数量、组织机构等;事件论元抽取主要有基于规则的方法、模式匹配的方法、传统机器学习的方法以及近年来高热度的基于深度学习方法。虽然目前基于深度学习技术进行事件论元抽取的研究已经十分广泛,但往往是局限在句子级别的,即事件论元需要与对应的事件触发词位于同一个句子中。对于涉及到跨句的事件表达,事件论元与事件触发词的位置可能间隔较远,待检测的论元常常以跨句的、隐式的形式出现,同时,文本分词后得到的单个字或词语通常不是完整的论元,而只是论元的一部分,论元在句中的起止位置不确定导致了在选择候选论元时面临O(n2)计算复杂度,且跨句论元检测需要处理的词语数量是段落甚至文档长度级的,因此,选择候选论元的计算复杂度很高。设计准确且快速的跨句论元检测是目前事件检测中一个必须解决的难题。
目前信息抽取的局限性,信息抽取系统仍然存在一些局限:1.精度不高;2.不可移植;3.组件不确定没控制。信息抽取的主要方法主要方法:1是基于知识工程的方法,由语言学家与领域专家通过观察一些相关的文档集,根据抽取任务手工编写一定的规则来进行相关信息的抽取。(90年代)对格式化文本容易。2是统计和机器学习,其中基于规则(决策树规则)局限性:模式表达能力有限;难获取复杂句或跨句的模式;基于统计的方法:运用大量简单特征,共同使用多种细致特征。HMM,CRF,MEMM,NB;3多种机器学习混合的方法。事件抽取的核心任务是事件mention的识别、事件属性的确定和论元角色的识别。事件的属性信息:(类型、子类型)、模态、倾向性、普遍性、时态。论元角色:实体、数值、时间。事件抽取的主要方法有基于多种机器学习的混合方法(多个子任务)和半监督和无监督的学习方法。半监督学习的主要方法采用自训练(Self-training),协作训练(Co-training),直推式(Transductive)SVM和基于图的方法(Graph-basedmethods)等等。自训练(self-training/self-teaching/boostrapping)主要思想是:首先利用少量的已标注数据或初始种子集合训练一个初始分类器,然后用初始分类器对未标注数据进行分类,并将可信度最大的数据加入到已标注数据中。接着在不断扩大的已标注数据集上,重复上述过程直到得到一个较为精确的分类器。其局限性包括:(1)初始种子不同,分类器的性能不同,分类器收敛的速度也不同。(2)Bootstrapping过程中出现的分类错误会在自我训练过程中被逐渐放大,并导致该过程失败。因此,初始种子的选择和新标注实例的评价和选择是该算法的关键。
对于论元抽取任务,我们发现大部分的论元正确识别,但是论元角色分类错误,通过统计,总共有209个论元,其中有23.9%的论元角色分类正确,但是事件类型分配错误,剩下的159个论元(76.1%)错误分类,还有15.1%的论元实体类型分配错误。所以,主要的问题是模型不能正确判断出不同的论元角色,论元角色之间具有歧义,如place和destination,origin和destination,seller和buyer。识别出这些论元角色之间的区别需要更好的机制或网络结构对输入句子进行建模。事件论元(EventArgument):参与事件发生的要素,由实体构成。实体(Entity):具有特定语义的基本单元,如时间、人物、地点、数量、组织机构等;事件论元抽取主要有基于规则的方法、模式匹配的方法、传统机器学习的方法以及近年来高热度的基于深度学习方法。虽然目前基于深度学习技术进行事件论元抽取的研究已经十分广泛,但往往是局限在句子级别的,即事件论元需要与对应的事件触发词位于同一个句子中。对于涉及到跨句的事件表达,事件论元与事件触发词的位置可能间隔较远,待检测的论元常常以跨句的、隐式的形式出现。同时,文本分词后得到的单个字或词语通常不是完整的论元,而只是论元的一部分,论元在句中的起止位置不确定导致了在选择候选论元时面临计算复杂度,且跨句论元检测需要处理的词语数量是段落甚至文档长度级的,一般情况下,一个事件在一个文档中通常会有一个句子最能表达该事件即事件的中心句,因此,选择候选论元的计算复杂度很高。设计准确且快速的跨句论元检测是目前事件检测中一个必须解决的难题。现有的论元抽取方法多数是基于浅层语义的句法结构特征,从而造成了论元抽取性能低下。针对这些未解决的问题,ShunZhengetal.提出了一种新颖的端到端的解决方案,该解决方案可以有效的生成基于实体的有向无环图,以实现文档级事件抽取。模型先将文档中所有的实体识别出来,然后通过文档级的信息的融合处理来解决句子级抽取所带来的信息没有跨句子流通的问题,接着根据设定的事件类型来对文档中是否包含某事件类型的事件进行判断,如果有,则针对该事件类型逐步生成一个有向无环图,有向无环图的生成更类似于按照填表的形式,对于每个事件类型的论元,按照设定逐步进行填充,由于针对所有的设定的事件类型逐个判断,所以理论上可以将一个文档中多个事件抽取出来,也就解决了单文档多事件的问题。采用Transformer作为上下文编码器对实体单位进行编码训练,在训练过程中,使用事件论元的角色信息作为实体标签,使用经典的BIO(Begin,Inside,Other)方案,并用crf层将其封装起来,来获得实体识别Loss函数。该部分则是转化为二分类任务,即判断某个实体是否是当前节点对应的论元角色,如果是则将该实体添加到EDAG中,如果没有任何实体能与当前的角色匹配,则将NA添加到EDAG中。Doc2EDAG模型通过使用NER模型将所有的实体识别出来之后,将所有的句子编码以及实体编码输入到Transformer中来完成跨句子信息的获取。然后对每个实体逐一分类最终获取事件完整的论元。但在BiLSTM-CRF模型中,若直接通过取BiLSTM输出的标签概率最大值作为最终预测输出,可能会出现诸如I作为开头的词、存在两个连续的B的词、B-PER和I-LOC连在一起等情况,模型效果将会降低。
现有的论元抽取方法多数是基于浅层语义的句法结构特征,从而造成了论元抽取性能低下。针对这些未解决的问题,ShunZhengetal.提出了一种新颖的端到端的解决方案,该解决方案可以有效的生成基于实体的有向无环图,以实现文档级事件抽取。模型先将文档中所有的实体识别出来,然后通过文档级的信息的融合处理来解决句子级抽取所带来的信息没有跨句子流通的问题,接着根据设定的事件类型来对文档中是否包含某事件类型的事件进行判断,如果有,则针对该事件类型逐步生成一个有向无环图,有向无环图的生成更类似于按照填表的形式,对于每个事件类型的论元,按照设定逐步进行填充,由于针对所有的设定的事件类型逐个判断,所以理论上可以将一个文档中多个事件抽取出来,也就解决了单文档多事件的问题。采用Transformer作为上下文编码器对实体单位进行编码训练,在训练过程中,使用事件论元的角色信息作为实体标签,使用经典的BIO(Begin,Inside,Other)方案,并用crf层将其封装起来,来获得实体识别Loss函数。该部分则是转化为二分类任务,即判断某个实体是否是当前节点对应的论元角色,如果是则将该实体添加到EDAG中,如果没有任何实体能与当前的角色匹配,则将NA添加到EDAG中。Doc2EDAG模型通过使用NER模型将所有的实体识别出来之后,将所有的句子编码以及实体编码输入到Transformer中来完成跨句子信息的获取。然后对每个实体逐一分类最终获取事件完整的论元。但在BiLSTM-CRF模型中,若直接通过取BiLSTM输出的标签概率最大值作为最终预测输出,可能会出现诸如I作为开头的词、存在两个连续的B的词、B-PER和I-LOC连在一起等情况,模型效果将会降低。
析句方法的比较现行的析句方法不外乎两种:即中心词分析法(也叫句子成分分析法或多分法)和层次分析法(也叫直接成分分析法或二分法)。对论元检测任务提出的“中心词”这一概念——中心词是指,在事件论元出现的句子中,往往存在着一个具有高度概括含义的词语,该词语能够代表该完整论元的语义;并且,这个具有概括性的词与事件触发词具有很强的依赖关系,可以通过依存解析模型将其检测出来。“中心词分析法”是汉语传统的单句分析方法,又叫句子成分分析。它有六种基本成分:主语、谓语、宾语、定语、状语、补语。它要求一个单句应有并且只能有一个中心。中心词分析法与层次分析法各有长短。前者便于显示句子的主干与枝叶,辨识句子的正误,便于揭示句子的内部结构规律,归纳句型,且易于操作。一个具有多个连续实体的短语,如果是修饰关系,只有短语中心词才是论元,该中心词大多对应短语最后一个实体;如果是并列关系,要么都是论元,要么都不是论元。但目前的中文语义角色的标注语料和标注系统并没有对现代汉语的这个特点给予充分的重视。由于数据稀疏的问题,对于与动词跨分句的论元还没有一个有效的识别方法。
虽然目前基于深度学习技术进行事件论元抽取的研究已经十分广泛,但往往是局限在句子级别的,即事件论元需要与对应的事件触发词位于同一个句子中。对于涉及到跨句的事件表达,事件论元与事件触发词的位置可能间隔较远,待检测的论元常常以跨句的、隐式的形式出现。同时,文本分词后得到的单个字或词语通常不是完整的论元,而只是论元的一部分,论元在句中的起止位置不确定导致了在选择候选论元时面临计算复杂度,因此,选择候选论元的计算复杂度很高。设计准确且快速的跨句论元检测是目前事件检测中一个必须解决的难题。
发明内容
为解决上述问题,本发明提出一种能够减少跨句论元检测的复杂度、提高准确率的中心词跨句事件论元检测方法。
本发明采用的技术方案如下:一种中心词跨句事件论元检测方法,其特征在于包括以下步骤:
语料预处理建立候选中心词集:对已标注出触发词t的待检测语料进行预处理,以句子为度量单位设置中心词检测窗口大小阈值k,将待检测语料中触发词所在句的k个紧邻句选做候选中心词所在的候选句,对候选句的内容进行分句、分词,建立候选中心词集;
候选中心词浅层语义向量计算:基于BERT预训练模型获取词语i的动态词向量BV(i),根据词语i的词性标注结果得到词性向量POSV(i)、利用词语与触发词的相对位置获取位置向量PV(i),运用向量拼接技术拼接BV(i)、POSV(i)、PV(i)作为浅层语义向量xi:利用 计算候选中心词的浅层语义向量;
候选中心词深层语义向量计算:拼接候选中心词集中每个词语的浅层语义向量,并输入BiLSTM神经网络中,基于BiLSTM神经网络计算包含上下文关联信息的深层语义特征向量R={ri|i=1,2…d};
检测触发词关联依存弧集:基于深层语义特征向量R进行面向依存弧检测双仿射变换,得到词语i与候选中心词集中任一其它词语存在依存弧的可能性得分矩阵Si,为词语i选择Si中得分值最大的一维所对应的词语j,以词语i、j作为依存弧的端点,共同构成一条依存弧,记作(i,j);对所有词并行上述操作,得到候选中心词集、触发词t之间所有的依存弧集合(dp-arcs),从dp-arcs中选择端点为t的依存弧、构成触发词关联依存弧集(tri-dp-arcs);
中心词检测及分类:遍历tri-dp-arcs,对依存弧(i,j),(i,j)∈tri-dp-arcs进行面向依存弧分类的双仿射变换,得到依存得分向量选择依存得分向量最大维对应的类,作为该依存弧的论元类别type-ij、将依存弧的非触发词端点作为待选中心词core-ij,同时记录该依存得分向量最大维值为依存得分sc,再将(core-ij、type-ij、sc)存入待选中心词集U;重复上述步骤,直至遍历完触发词关联依存弧集;最后,对于待选中心词集U按论元类别进行分组、再从每组中选择对应依存得分值最高的中心词c及论元类别argument-type,作为与触发词t对应的中心词及相应的论元类别,得到中心词-论元类别集;
基于中心词扩展算法检测事件论元:从中心词-论元类别集中取中心词c及其论元类别argument-type,对于一个中心词c,首先从中心词的临近词语中检测出论元左、右边界——分别取c的左、右临近若干词,先将其动态词向量BERT向量、位置向量拼接后输入多层感知机MLP模型,实现基于输入向量的特征建模,并计算出的每个临近词作为c的左、右边界词的归一化概率值,选择概率最大的词作为c的左、右边界词,将左、右边界值之间的词语集合拼接作为中心词c对应的完整论元,并将argument-type作为该完整论元的类别,从而完成跨句的事件论元检测。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明在事件触发词已检出的前提下,将跨句论元检测任务分解为将跨句论元检测任务拆分成中心词检测与论元分类以及中心词的扩展两个子任务,基于依存关系解析的中心词检测与分类,基于多层感知机分类器的论元边界词检测。分两步走解决跨句论元检测任务,将复杂的跨句论元检测转化成两个相对简单的任务,其中,中心词检测与分类可以通过依存分析粗略确定论元的位置,同时完成论元角色分类。这种分两步走解决跨句论元检测任务,能够大幅度降低正确检测出跨句论元的难度,提升检测效果;
本发明通过深层语义特征的双仿射变化实现中心词检测及论元分类,在多种语义浅层特征的基础上通过BiLSTM获得融合上下文语义的深层语义特征,可以提取高质量的上下文语义特征,从而生成最先进的预测。而基于深层特征的两次双仿射变换得到了较高的中心词识别率及论元类别准确率;
本发明从中心词的临近词语中检测出论元左、右边界——分别取c的左、右临近若干词,先将其动态词向量BERT向量、位置向量拼接后得到向量EV,将EV输入多层感知机MLP模型,实现对数据的特征建模及分类。BERT向量及位置向量提供了一个优势,BERT可以从文本数据中动态地提取语义特征、可以解决一词多义问题,而位置向量则建模了词语对于中心词相对位置对词语作为论元边界词的不同效果。由于多层感知机MLP是一个前馈式的、有监督的人工神经网络结构,可包含多个隐藏层,实现对非线性特征向量的分类建模。MLP可以将数据分为训练集、测试集、验证集,其中,训练集可以用来拟合网络的参数,验证集防止训练过度,测试集用来评估网络的效果,并应用于总样本集。当因变量是分类型的数值,MLP神经网络则可以根据所输入的数据,将记录划分为最适合类型;
本发明提出的这种先检测中心词及类别、再基于中心词进行论元检测的方法,能够将候选论元数量从平方数量级降低至线性数量级,从而降低了计算的复杂度,提升了检测效率。实验结果表明,对于跨句论元检测,中心词识别的F值达70.5%,而整体的论元检测效果达到68.2%。
本发明适用于文本领域跨句事件论元的检测,同时也适用于传统的句内论元检测。
附图说明
图1是本发明中心词跨句事件论元检测流程图;
图2是本发明中心词跨句事件论元检测具体流程图;
下面结合附图和实施例对本发明作更进一步的说明。
具体实施方式
参阅图1。根据本发明,采用如下步骤:
语料预处理建立候选中心词集:对已标注出触发词t的待检测语料进行预处理,以句子为度量单位设置中心词检测窗口大小阈值k,将待检测语料中触发词所在句的k个紧邻句选做候选中心词所在的候选句,对候选句的内容进行分句、分词,建立候选中心词集;
候选中心词浅层语义向量计算:基于BERT预训练模型获取词语i的动态词向量BV(i),根据词语i的词性标注结果得到词性向量POSV(i)、利用词语与触发词的相对位置获取位置向量PV(i),运用向量拼接技术拼接BV(i)、POSV(i)、PV(i)作为浅层语义向量xi:利用 计算候选中心词的浅层语义向量;
候选中心词深层语义向量计算:拼接候选中心词集中每个词语的浅层语义向量,并输入BiLSTM神经网络中,基于BiLSTM神经网络计算包含上下文关联信息的深层语义特征向量R={ri|i=1,2…d};
检测触发词关联依存弧集:基于深层语义特征向量R进行面向依存弧检测双仿射变换,得到词语i与候选中心词集中任一其它词语存在依存弧的可能性得分矩阵Si,为词语i选择Si中得分值最大的一维所对应的词语j,以词语i、j作为依存弧的端点,共同构成一条依存弧,记作(i,j);对所有词并行上述操作,得到候选中心词集、触发词t之间所有的依存弧集合(dp-arcs),从dp-arcs中选择端点为t的依存弧、构成触发词关联依存弧集(tri-dp-arcs);
中心词检测及分类:遍历tri-dp-arcs,对依存弧(i,j),(i,j)∈tri-dp-arcs进行面向依存弧分类的双仿射变换,得到依存得分向量选择依存得分向量最大维对应的类,作为该依存弧的论元类别type-ij、将依存弧的非触发词端点作为待选中心词core-ij,同时记录该依存得分向量最大维值为依存得分sc,再将(core-ij、type-ij、sc)存入待选中心词集U;重复上述步骤,直至遍历完触发词关联依存弧集;最后,对于待选中心词集U按论元类别进行分组、再从每组中选择对应依存得分值最高的中心词c及论元类别argument-type,作为与触发词t对应的中心词及相应的论元类别,得到中心词-论元类别集;
基于中心词扩展算法检测事件论元:从中心词-论元类别集中取中心词c及其论元类别argument-type,对于一个中心词c,首先从中心词的临近词语中检测出论元左、右边界——分别取c的左、右临近若干词,先将其动态词向量BERT向量、位置向量拼接后输入多层感知机MLP模型,实现基于输入向量的特征建模,并计算出的每个临近词作为c的左、右边界词的归一化概率值,选择概率最大的词作为c的左、右边界词,将左、右边界值之间的词语集合拼接作为中心词c对应的完整论元,并将argument-type作为该完整论元的类别,从而完成跨句的事件论元检测;
在计算各候选中心词的位置向量PV中,对于候选中心词集的词语i,若与当前触发词t处于同一句子中,则词语i的位置向量PV(i)=1,若处于非同一句中,则词语位置向量为PV(i)=0;在计算各候选中心词的词性向量中,对于候选中心词集的词语i,使用LTP工具集中的词性标注模块对词语进行词性标注,然后使用one-hot向量来表示词语的词性向量POSV(i);
在对浅层语义向量通过BiLSTM层处理,获取深层语义向量中,对每个词语的浅层语义向量xi拼接、构成序列X={xi|i=1,2,...,d},然后将X送入双向长短时记忆网络BiLSTM,得到包含了上下文结构以及语义特征的隐层向量,即深层语义向量R={ri|i=1,2,...,d},其中,d是候选中心词集的词语数。
在对候选中心词集以及触发词中任意两个词具有依存弧的可能性进行打分中,按照公式Si=RU(1)ri+Ru(2),其中,Si∈Rd×1,U(1)是仿射变换矩阵,u(2)是偏置矩阵,将单词i的深层语义向量ri经过仿射变换、并且以Ru(2)作为仿射变换的偏置项,计算词i以中心词检测窗口中任一词语为依存核心词、从而构成依存弧的可能性得分Si,Si的每一维代表窗口内其它任意词与词语i的依存关系打分结果,并将对角线值设置为0,最终,对词i选择Si中最高分数一维所对应词j作为i的核心词,并且以词i为依存词、j为核心词构成一条依存弧(i,j)。
在中心词检测及分类中,遍历tri-dp-arcs,对每条依存弧(i,j)进行面向依存弧分类的双仿射变换,得到依存得分向量选择依存得分向量最大维对应的类作为该依存弧的论元类别,并获取待选中心词集U的具体方法为:
①从tri-dp-arcs中取一条触发词关联依存弧(i,j),取其端点词i、词j的深层语义向量ri、rj;
③选择中数值最大维值sc作为依存得分,取该维对应的论元类别type-ij;取i、j中的非触发词作为待选中心词core-ij,记录(core-ij,type-ij,sc)至待选中心词集U中,U的对应属性为core,type,score,分别表示待选中心词、触发词、论元类别,依存得分;
④:跳转至步骤①,直至tri-dp-arcs遍历完毕。
在中心词检测及分类中,待选中心词集U按论元类别type进行分组,再从每组中选择中心词及论元类别type,按照type的值对U中的记录分组,得到U={u1,u2,...,um},其中,其中,us为U的若干条记录,1≤s≤m,然后,遍历U,对每个us,选择其中score值最大的一条记录,取该条记录中候选中心词作为该组对应论元类别的中心词,重复上述操作,直至U遍历结束,得到触发词t对应的中心词及中心词对应的论元类别。
在基于中心词扩展算法检测事件论元中,以检测论元左边界词为例,检测中心词临近词语作为论元左边界具体方法为:以与c属于同一短句、且位于c左侧的词语集作为候选左边界词集E;以其相对于c的距离作为候选边界词的位置向量POV,具体地,c的位置向量编码为0,距离c最近的左侧词语编码为-1,依次减1类推(同理,检测右边界词时距离c最近的右侧词语编码为1,依次加1类推),编码绝对值最大限制为5;对于,查找BERT预训练向量表中的BERT向量值BV(e);对e的位置向量POV(e)、BV(e)进行拼接得到拼接向量ev、然后将所有词的拼接向量ev拼接起来得到整个句子拼接向量EV,;EV输入至MLP模型,MLP模型计算的结果为候选边界词集E中每个词语作为c左边界的归一化概率值,选择概率最大的词语作为左边界词。右边界词的检测同理,不再赘述。
参阅图2。在中心词跨句事件论元检测中,将带有触发词标记的新闻语料进行预处理,建立触发词t相应的候选词中心词集。对t及候选中心词集中的词i计算浅层语义向量,拼接动态词向量BERT向量BV(i)、词性向量POSV(i),位置向量PV(i),得到浅层语义向量xi。完成浅层语义向量拼接后,再将浅层语义向量通过BiLSTM层计算深层语义向量。获取深层语义向量中,拼接每个词语的浅层语义向量xi、构成序列X={xi|i=1,2,...,d},得到深层语义向量R={ri|i=1,2,...,d}。检测触发词关联依存弧(i,j),基于面向依存弧检测双仿射变换Si=RU(1)ri+Ru(2),得到依存弧(i,j),将依存弧(i,j)存入依存弧集合dp-arcs,从dp-arcs中选择端点为t的依存弧,得到触发词关联依存弧集tri-dp-arcs。进入中心词检测及分类,判断是否遍历完tri-dp-arcs,是则对待选中心词集U按论元类别分组,否则,取触发词关联依存弧(i,j),基于面向依存弧检测双仿射变换得出依存得分向量选择最大维的值为依存得分sc、该维对应的论元类别type-ij、以及待选中心词core-ij,将(core-ij,type-ij,sc)存入待选中心词集U;进行U的分组,按组取依存得分值最高的中心词及论元类别,将其存入中心词-论元类别集。从中心词-论元类别集中获取中心词c及论元类别argument-type,根据中心词c建立候选边界词集E,从E中取词e,将e的向量EV送入MLP模型,获取候选边界词的归一化概率值,得到c的左右边界词,进而得到完整论元,原来的中心词论元类别argument-type仍作为完整论元类别,得到完整论元及论元类别,结束程序。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种中心词跨句事件论元检测方法,其特征在于包括以下步骤:
语料预处理建立候选中心词集:对已标注出触发词t的待检测语料进行预处理,以句子为度量单位设置中心词检测窗口大小阈值k,将待检测语料中触发词所在句的k个紧邻句选做候选中心词所在的候选句,对候选句的内容进行分句、分词,建立候选中心词集;
候选中心词浅层语义向量计算:基于BERT预训练模型获取词语i的动态词向量BV(i),根据词语i的词性标注结果得到词性向量POSV(i)、利用词语与触发词的相对位置获取位置向量PV(i),运用向量拼接技术拼接BV(i)、POSV(i)、PV(i)作为浅层语义向量xi:利用 计算候选中心词的浅层语义向量;
候选中心词深层语义向量计算:拼接候选中心词集中每个词语的浅层语义向量,并输入BiLSTM神经网络中,基于BiLSTM神经网络计算包含上下文关联信息的深层语义特征向量R={ri|i=1,2…d};
检测触发词关联依存弧集:基于深层语义特征向量R进行面向依存弧检测双仿射变换,得到词语i与候选中心词集中任一其它词语存在依存弧的可能性得分矩阵Si,为词语i选择Si中得分值最大的一维所对应的词语j,以词语i、j作为依存弧的端点,共同构成一条依存弧,记作(i,j);对所有词并行上述操作,得到候选中心词集、触发词t之间所有的依存弧集合(dp-arcs),从dp-arcs中选择端点为t的依存弧、构成触发词关联依存弧集(tri-dp-arcs);
中心词检测及分类:遍历tri-dp-arcs,对依存弧(i,j),(i,j)∈tri-dp-arcs进行面向依存弧分类的双仿射变换,得到依存得分向量选择依存得分向量最大维对应的类,作为该依存弧的论元类别type-ij、将依存弧的非触发词端点作为待选中心词core-ij,同时记录该依存得分向量最大维值为依存得分sc,再将(core-ij、type-ij、sc)存入待选中心词集U;重复上述步骤,直至遍历完触发词关联依存弧集;最后,对于待选中心词集U按论元类别进行分组、再从每组中选择对应依存得分值最高的中心词c及论元类别argument-type,作为与触发词t对应的中心词及相应的论元类别,得到中心词-论元类别集;
基于中心词扩展算法检测事件论元:从中心词-论元类别集中取中心词c及其论元类别argument-type,对于一个中心词c,首先从中心词的临近词语中检测出论元左、右边界——分别取c的左、右临近若干词,先将其动态词向量BERT向量、位置向量拼接后输入多层感知机MLP模型,实现基于输入向量的特征建模,并计算出的每个临近词作为c的左、右边界词的归一化概率值,选择概率最大的词作为c的左、右边界词,将左、右边界值之间的词语集合拼接作为中心词c对应的完整论元,并将argument-type作为该完整论元的类别,从而完成跨句的事件论元检测。
2.如权利要求1所述的中心词跨句事件论元检测方法,其特征在于:在计算各候选中心词的位置向量PV中,对于候选中心词集的词语i,若与当前触发词t处于同一句子中,则词语i的位置向量PV(i)=1,若处于非同一句中,则词语位置向量为PV(i)=0。
3.如权利要求1所述的中心词跨句事件论元检测方法,其特征在于:在计算各候选中心词的词性向量中,对于候选中心词集的词语i,使用LTP工具集中的词性标注模块对词语进行词性标注,然后使用one-hot向量来表示词语的词性向量POSV(i)。
5.如权利要求1所述的中心词跨句事件论元检测方法,其特征在于:在对浅层语义向量通过BiLSTM层处理,获取深层语义向量中,对每个词语的浅层语义向量xi拼接、构成序列X={xi|i=1,2,...,d},然后将X送入双向长短时记忆网络BiLSTM,得到包含了上下文结构以及语义特征的隐层向量,即深层语义向量R={ri|i=1,2,...,d},其中,d是候选中心词集的词语数。
6.如权利要求1所述的中心词跨句事件论元检测方法,其特征在于:在对候选中心词集以及触发词中任意两个词具有依存弧的可能性进行打分中,按照公式Si=RU(1)ri+Ru(2),其中,Si∈Rd×1,U(1)是仿射变换矩阵,u(2)是偏置矩阵将单词i的深层语义向量ri经过仿射变换、并且以Ru(2)作为仿射变换的偏置项,计算词i以中心词检测窗口中任一词语为依存核心词、从而构成依存弧的可能性得分Si,Si的每一维代表窗口内其它任意词与词语i的依存关系打分结果,并将对角线值设置为0,最终,对词i选择Si中最高分数一维所对应词j作为i的核心词,并且以词i为依存词、j为核心词构成一条依存弧(i,j)。
9.如权利要求8所述的中心词跨句事件论元检测方法,其特征在于:在中心词检测及分类中,待选中心词集U按论元类别type进行分组,再从每组中选择中心词及论元类别,按照论元类别type的值对U中的记录分组,得到U={u1,u2,...,um},然后,遍历U,对每组us,选择组内score值最大的一条记录,取该条记录中候选中心词作为该组对应论元类别的中心词,重复上述操作,直至U遍历结束,得到触发词t对应的中心词及中心词对应的论元类别,其中,us为U的若干条记录,1≤s≤m。
10.如权利要求1所述的中心词跨句事件论元检测方法,其特征在于:基于中心词扩展算法检测事件论元,检测中心词临近词语作为论元左边界,以与c属于同一短句、且位于c左侧的词语集作为候选左边界词集E,从E中选择出候选边界词e,以e相对于c的词语距离作为e的位置向量POV,c的位置向量编码为0,距离c最近的左侧词语编码为-1,依次减1类推,同理,检测右边界词时距离c最近的右侧词语编码为1,依次加1类推,编码绝对值最大限制为5;查找BERT预训练向量表中的BERT向量值BV(e);对e的位置向量POV(e)、BV(e)进行拼接得到拼接向量ev、然后将所有词的拼接向量ev拼接起来得到整个句子拼接向量EV,将EV输入至MLP模型,使用MLP模型计算出候选边界词集E中每个词语作为c左边界的归一化概率值的结果、并选择概率最大的词语作为左边界词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278186.3A CN114036955B (zh) | 2021-10-30 | 2021-10-30 | 中心词跨句事件论元检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111278186.3A CN114036955B (zh) | 2021-10-30 | 2021-10-30 | 中心词跨句事件论元检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036955A CN114036955A (zh) | 2022-02-11 |
CN114036955B true CN114036955B (zh) | 2023-04-07 |
Family
ID=80135736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111278186.3A Active CN114036955B (zh) | 2021-10-30 | 2021-10-30 | 中心词跨句事件论元检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036955B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564967B (zh) * | 2022-04-29 | 2022-09-13 | 天津大学 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN117094397B (zh) * | 2023-10-19 | 2024-02-06 | 北京大数据先进技术研究院 | 一种基于短论元的细粒度事件信息抽取方法、装置和产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
-
2021
- 2021-10-30 CN CN202111278186.3A patent/CN114036955B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于语义的中文事件触发词抽取联合模型;李培峰等;《软件学报》;20160215(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114036955A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
Shen et al. | Attention-based convolutional neural network for semantic relation extraction | |
Jung | Semantic vector learning for natural language understanding | |
CN114036955B (zh) | 中心词跨句事件论元检测方法 | |
EP3230896B1 (en) | Localization complexity of arbitrary language assets and resources | |
Hernault et al. | HILDA: A discourse parser using support vector machine classification | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
Li et al. | Syntax role for neural semantic role labeling | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN115098634A (zh) | 一种基于语义依存关系融合特征的舆情文本情感分析方法 | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Ludwig et al. | Deep embedding for spatial role labeling | |
CN111950281B (zh) | 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115238696A (zh) | 中文命名实体识别方法、电子设备及存储介质 | |
Arslan | Application of BiLSTM-CRF model with different embeddings for product name extraction in unstructured Turkish text | |
WO2021129410A1 (zh) | 文本处理方法及装置 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
Xie et al. | Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations | |
Ye et al. | MBA: A multimodal bilinear attention model with residual connection for abstractive multimodal summarization | |
González-Gallardo et al. | Automated sentence boundary detection in modern standard arabic transcripts using deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |