CN111967268B - 文本中的事件抽取方法、装置、电子设备和存储介质 - Google Patents
文本中的事件抽取方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111967268B CN111967268B CN202010608577.6A CN202010608577A CN111967268B CN 111967268 B CN111967268 B CN 111967268B CN 202010608577 A CN202010608577 A CN 202010608577A CN 111967268 B CN111967268 B CN 111967268B
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- argument
- input text
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 310
- 239000013598 vector Substances 0.000 claims description 125
- 238000002372 labelling Methods 0.000 claims description 109
- 238000000034 method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 4
- 238000010380 label transfer Methods 0.000 claims 3
- 238000010276 construction Methods 0.000 abstract description 11
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 241000219000 Populus Species 0.000 description 15
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了文本中的事件抽取方法、装置、电子设备和存储介质,涉及知识图谱、深度学习以及自然语言处理技术领域。具体实现方案为:在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及知识图谱、深度学习以及自然语言处理技术领域,尤其涉及文本中的事件抽取方法、装置、电子设备和存储介质。
背景技术
随着互联网的普及和发展,网络中的信息规模呈爆炸式地增长,如何从海量自然语言文档中及时准确地找到需要的信息变得日益迫切。信息抽取技术(InformationExtraction,IE)从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息,并输出结构化的数据。其中,事件抽取(Event Extraction)是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。因此,如何从文本中即准确又快速进行事件抽取是是亟需解决的一个技术问题。
发明内容
本申请提供了一种用于文本中的事件抽取方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种文本中的事件抽取方法,包括:获取输入文本;将所述输入文本输入到触发词抽取模型中,以得到所述输入文本的触发词抽取结果;将所述输入文本和所述触发词抽取结果输入到论元抽取模型中,以得到所述输入文本的论元抽取结果;以及根据所述触发词抽取结果和所述论元抽取结果,确定所述输入文本的事件抽取结果。
根据本申请的另一方面,提供了一种文本中的事件抽取装置,包括:获取模块,用于获取输入文本;触发词抽取模块,用于将所述输入文本输入到触发词抽取模型中,以得到所述输入文本的触发词抽取结果;论元抽取模块,用于将所述输入文本和所述触发词抽取结果输入到论元抽取模型中,以得到所述输入文本的论元抽取结果;以及确定模块,用于根据所述触发词抽取结果和所述论元抽取结果,确定所述输入文本的事件抽取结果。
根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的文本中的事件抽取方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例公开的文本中的事件抽取方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行本申请实施例公开的文本中的事件抽取方法。
上述申请中的一个实施例具有如下优点或有益效果:在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例提供的一种文本中的事件抽取方法的流程示意图;
图2是根据本申请第二实施例的一种文本中的事件抽取方法的流程示意图;
图3是根据本申请第三实施例的一种文本中的事件抽取方法的流程示意图;
图4是根据本申请第四实施例的一种文本中的事件抽取方法的流程示意图;
图5是根据本申请第五实施例提供的一种文本中的事件抽取方法的流程示意图;
图6是根据本申请第六实施例提供的一种文本中的事件抽取方法的流程示意图;
图7是根据本申请第七实施例提供的一种文本中的事件抽取方法的流程示意图;
图8是根据本申请第八实施例提供的一种文本中的事件抽取装置的结构示意图;
图9是根据本申请第九实施例提供的一种文本中的事件抽取装置的结构示意图;
图10是用来实现本申请实施例的文本中的事件抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的文本中的事件抽取方法、装置、电子设备和存储介质。
图1是根据本申请第一实施例提供的一种文本中的事件抽取方法的流程示意图。
如图1所示,该文本中的事件抽取方法可以包括:
步骤101,获取输入文本。
其中,需要说明的是,本实施例的文本中的事件抽取方法的执行主体为文本中的事件抽取装置,该文本中的事件抽取装置可以由软件和/或硬件的方式实现,该实施例中的文本中的事件抽取装置可以配置在电子设备中,本实施例中的电子设备可以包括终端设备和服务器等设备,该实施例对电子设备不作限定。
其中,本实施例中的输入文本的语言可以为中文,也可以为英文,或者,还可以为其他语言类型,本实施例对输入文本的语言类型不作具体限定。其中,需要说明的是,本实施例以输入文本中文的输入文本为例进行描述。
其中,本实施例中的输入文本是指待进行事件抽取的文本,该输入文本可以是任意领域的文本,例如,输入文本可以为“默默公司在杭州建立了科研研究中心”,或者,输入文本可以为“大峡谷公司在今日宣布破产”等,该实施例对输入文本不作具体限定。
步骤102,将输入文本输入到触发词抽取模型中,以得到输入文本的触发词抽取结果。
在本实施例中,在将输入文本输入到触发词抽取模型后,触发词抽取模型通过该输入文本中的文字进行上下文特征以及语义分析,并根据该输入文本的分析结果,从该输入文本中抽取出触发词抽取结果。
其中,需要理解的是,本实施例中的触发词抽取模型是基于训练数据而预先得到。作为一种可能的实现方式,训练触发词抽取模型的过程为:获取训练数据,其中,训练数据包括样本文本以及样本文本的触发词标注结果,根据样本文本以及样本文本的触发词标注结果对初始的触发词抽取模型进行训练,以得到触发词抽取模型。
其中,本实施例中的触发词抽取模型可以包括输入层、网络层和标注层以及输出层,本实施例的网络层中的网络层中的网络可以为深度神经网络,本实施例中的标注层可以包括随机条件场(Conditional Random Field, CRF)网络。
步骤103,将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果。
其中,需要理解的是,本实施例中的论元抽取模型是预先训练的,训练论元抽取模型的一种可能实现方式为:获取训练数据,其中,训练数据包括样本文本、样本文本的触发词标注结果以及样本文本的论元标注结果,将样本文本、样本文本的触发词标注结果作为初始的论元抽取模型的输入,并将样本文本的论元标注结果作为初始的论元抽取模型的输出,对初始的论元抽取模型进行训练,以得到论元抽取模型。
在本实施例中,在将论元抽取模型获取输入文本和触发词抽取结果后,论元抽取模型内部的一种可能处理方式可以为:可对输入文本进行分字,可得到该输入文本的字序列,并确定该字序列的文本特征向量序列,并根据触发词抽取结果,确定该字序列的触发词特征向量序列,然后,根据文本特征向量序列和触发词特征向量序列,确定出融合特征向量序列,然后,论元抽取模型中的网络层基于融合特征向量序列,确定出该字序列的语义表示向量序列,然后,论元抽取模型中的标注网络,根据语义表示向量序列,确定该字序列的标注结果,以及根据字序列的标注结果,确定该输入文本的触发词抽取结果。
步骤104,根据触发词抽取结果和论元抽取结果,确定输入文本的事件抽取结果。
可以理解的是,与相关技术中的在从文本中进行事件抽取时,基于人工构建特征(例如人工构建规则和模板)进行事件抽取的方式相比,本实施例通过触发词抽取模型和论元抽取模型即可实现对输入文本进行事件抽取,不仅有效的提升了事件抽取的性能,而且降低了事件抽取的构建成本,无需任何人工特征构建。
本申请实施例的文本中的事件抽取方法,在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
其中,可以理解的是,本实施例的事件抽取方法的应用场景有很多,例如,在获取事件抽取结果后,可以以结构化的形式展现和表示事件,在大搜和Feed流事件脉络中展示事件,方便用户用快速理解事件。又例如,本实施例的事件抽取可应用于金融领域场景中,通过对公司的事件进行抽取,进行有效地风险控制,本实施例的应用场景并不限定上述举例的两种应用场景,该实施例对事件抽取的应用场景不作限定。
在本申请的一个实施例中,为了可以准确确定出输入文本中的事件抽取结果,如图2所示,本实施例的根据触发词抽取结果和论元抽取结果,确定输入文本的事件抽取结果,包括:
步骤201,根据触发词抽取结果,确定输入文本中的触发词。
本实施例中的触发词抽取结果可以包括每个字的触发词识别结果。对应地,可每个字的触发词识别结果,确定输入文本中的触发词。
例如,输入文本为“张三三求婚杨某某”,假设张三三和杨某某均是公众人物,通过触发词抽取结果,确定该输入文本中的触发词为“求”被识别为触发词的开头,“婚”被识别为触发词的中间词。根据触发词抽取结果,可确定“求婚”为输入文本中的触发词。
步骤202,根据触发词,确定触发词所属的事件类型。
具体地,可根据预先保存的各个样本触发词和事件类型之间的对应关系,确定该触发词所属的事件类型。
其中,可以理解的是,本实施例中输入文本中的触发词可以包括对一个或者多个。
在一些实施例中,本实施例的多个触发词可以对应同一个事件类型,或者每个触发词各自对应一个事件类型,该实施例对此不作具体限定,例如,输入文本存在的两个触发词为“车祸”、“追尾”,根据触发词和事件类型的对应关系,可确定者两个触发词对应的事件类型均为“交通事故”。例如,输入文本中包括两个触发词,触发词1为“爆料”,触发词2为“离婚”,可确定触发词1对应的事件类型为爆料事件,触发词2对应的事件类型为离婚事件。
又例如,输入文本为“张三三求婚杨某某”,假设张三三和杨某某均是公众人物,通过触发词抽取结果,确定该输入文本中的触发词为“求婚”,根据触发词“求婚”,确定该触发词“求婚”所属的事件类型为“求婚事件”。
步骤203,根据论元抽取结果,确定输入文本中的论元。
例如,输入文本为“张三三求婚杨某某”,假设张三三和杨某某均是公众人物,论元抽取结果可以包括每个字的论元识别结果,论元识别结果该字为论元,或者,该字不是论元,根据论元抽取结果,可确定输入文本中的论元为“张三三”和“杨某某”。
步骤204,根据事件类型,确定论元在事件类型中所属的论元角色。
接上述举例,该输入文本的事件类型为“求婚事件”,确定论元“张三三”在“求婚事件”中所属的论元角色为求婚者,确定论元“杨某某”在“求婚事件”中所属的论元角色为求婚对象。
步骤205,根据触发词、事件类型、论元以及论元角色,确定输入文本的事件抽取结果。
在本实施中,在获取触发词、事件类型、论元以及论元角色后,根据触发词、事件类型、论元以及论元角色,即可得到完整的事件结构,从而可准确确定出输入文本的事件抽取结果,进而可准确输出该输入文本的事件抽取结果。
在本申请的一个实施例中,为了可以从输入文本中准确抽取到触发词,本实施例中的触发词抽取模型可以包括第一预训练语言模型和第一序列标注网络,如图3所示,本实施例的步骤102可以包括:
步骤301,对输入文本进行分字,以得到输入文本的字序列。
步骤302,将字序列输入到第一预训练语言模型中,以得到字序列的第一语义特征向量序列。
具体而言,可将字序列的文本特征向量序列输入到第一预训练语言模型中,以得到字序列的第一语义特征向量序列。
其中,本实施例中的文本特征向量可以包括字序列的字特征向量、位置特征向量以及上下文特征向量。
具体而言,可将字序列的字特征向量序列、位置特征向量序列以及上下文特征向量序列进行加和,以得到字序列的融合特征向量序列,并将融合特征向量序列输入到第一预训练语言模型中,以得到字序列的第一语义特征向量序列。
其中,本实施中的第一预训练语言模型和后续实施例中出现的第二预训练语言模型均为BERT(Bidirectional Encoder Representations from Transformers,基于变压器的双向编码表示)模型、ERNIE(Enhanced Representation from kNowledge IntEgration,知识增强语义表示模型)等,该实施例对此不作具体限定。
步骤303,将第一语义特征向量序列输入到第一序列标注网络,以得到字序列的触发词标注序列。以及
步骤304,根据触发词标注序列,确定输入文本的触发词抽取结果。
其中,本实施例中的标注模式可以任何类型的标注模式,例如,标注模式为BIO模式。BIO模式标注文本中的每个字。B-type表示当前字是触发词的第一个字,且触发词触发的事件类型为type;I-type表示当前字位于触发词中,且触发词触发的事件类型为type;O表示当前字不在任何触发词中。例如,输入文本“张三三求婚杨某某”,其对应的触发词标注序列为张/O、三/O、三/O、求/B、婚/I、杨/O、依/O、依/O,根据该触发词标注序列,可确定输入文本中的“求婚”为输入文本中的触发词。
本实施例,将字序列输入到第一预训练语言模型中得到字序列的语义表示向量序列,并结合序列标注网络对语义表示向量序列进行准确标注,从而得到字序列的触发词标注序列,并结合触发词标注序列,准确确定出输入文本的触发词抽取结果。
在本申请的一个实施例中,为了进一步提高所抽取的触发词的准确性,本实施例中的第一序列标注网络可以包括第一条件随机场层,如图4所示,上述步骤303,可以包括:
步骤401,根据第一语义特征向量序列,确定字序列中每个字在各个触发词标注标签上的概率值。
步骤402,获取第一条件随机场层对应的第一标签转移概率矩阵。
其中,第一标签转移概率矩阵包括一个触发词标注标签转移到另一个触发词标注标签的概率。
步骤403,根据第一标签转移概率矩阵和每个字在各个触发词标注标签上的概率值,确定字序列的多个候选触发词抽取结果的概率值。以及
步骤404,从多个候选触发词序列中获取概率值最大的候选触发词标注序列作为字序列的触发词标注序列。
在本申请的一个实施例中,为了提高从输入文本中抽取到论元的准确性,本实施例中的论元抽取模型可以包括第二预训练语言模型和第二序列标注网络,具体而言,结合第二预训练语言模型输出的语义表示向量序列,并通过第二序列标注网络对语义表示向量序列进行标签标注,以根据标签标注结果,准确确定出输入文本中的论元。下面结合图5对上述步骤103的一种可能实现方式进行描述。
如图5所示,上述步骤103可以包括:
步骤501,对输入文本进行分字,以得到输入文本的字序列。
步骤502,根据触发词抽取结果,确定字序列的触发词特征向量序列。
在本实施例中的触发词抽取结果包括输入文本中每个字的触发词识别结果,根据触发词抽取结果,确定字序列的触发词特征向量序列的一种可能实现方式可以为:根据每个字的触发词识别结果,确定字序列的触发词特征向量序列。由此,准确得到了字序列的触发词特征向量序列。
具体地,针对字序列中的每个字,可根据每个字的触发词识别结果,确定每个字对应的触发词特征向量,并根据每个字对应的触发词特征向量,形成该字序列的触发词特征向量序列。
步骤503,根据字序列,确定字序列对应的文本特征向量序列。
步骤504,将文本特征向量序列和触发词特征向量序列进行加和,以得到融合特征向量序列。
其中,本实施例中的文本特征向量可以包括字序列的字特征向量、位置特征向量以及上下文特征向量。
具体而言,可将字序列的字特征向量序列、位置特征向量序列、上下文特征向量序列以及触发词特征向量序列进行加和,以得到字序列的融合特征向量序列。
步骤505,将融合特征向量序列输入到第二预训练语言模型中,以得到字序列的第二语义特征向量序列。
例如,可字序列的融合特征向量序列输入到第二ERNIE模型中,以得到该字序列的第二语义特征向量序列。
步骤506,将第二语义特征向量序列输入到第二序列标注网络中,以得到字序列的论元标注序列。
步骤507,根据论元标注序列,确定输入文本的论元。
例如,输入文本为“张三三求婚杨某某”,假设触发词为“求婚”,其对应的论元标注序列为张/B、三/I、三/I、求/O、婚/O、杨/B、依/I、依/I,其中,B表示当前字是论元的第一个字;I表示当前字位于论元中;O表示当前字不在任何论元中,根据该论元标注序列,可确定输入文本中的“张三三”以及“杨某某”为输入文本中的论元。
本实施例,将字序列和触发词抽取结果输入到第二预训练语言模型中得到字序列的语义表示向量序列,并结合第二序列标注网络对语义表示向量序列进准确标注论元,从而得到字序列的论元标注序列,并结合论元标注结果,准确确定出输入文本的论元。
在本申请的一个实施例中,为了进一步提高所抽取的论元的准确性,本实施例中的第二序列标注网络可以包括第二条件随机场层,本实施例中的上述步骤507,如图6所示,可以包括:
步骤601,根据第二语义特征向量序列,确定字序列中每个字在各个论元标注标签上的概率值。
步骤602,获取第二条件随机场层所对应的第二标签转移概率矩阵。
其中,第二标签转移概率矩阵包括一个论元标注标签转移到另一个论元标注标签的概率。例如,以BIO模式作为论元标注标签,其中,第二论元转移概率矩阵包括B标注标签、I标注标签以及O标注标签三者之间的转移概率。
步骤603,根据第二标签转移概率矩阵和每个字在各个论元标注标签上的概率值,确定字序列的多个候选论元标注序列的概率值。
步骤604,从多个候选论元序列中获取概率值最大的候选论元标注序列作为字序列的论元标注序列。
为了使得本领域技术人员清楚了解本申请,下面结合图7对本实施例中的文本中的事件抽取方法进行描述。
其中,图7中以第一预训练语言模型和第二预训练语言模型均为ERNIE模型为例进行描述,并且以输入文本为“李某某求婚杨某某”为例进行描述。
在将输入文本输入到基于序列标注的触发词抽取模型中,对应地,基于序列标注的触发词抽取模型的示例性实现过程可以为:
首先,触发词抽取模型的输入层构建输入文本的词汇特征向量(TokenEmbeding)、是否上下句特征向量(Segment Embedding)和位置特征向量(PositionEmbedding),并将词汇特征向量、是否上下句特征向量和位置特征向量进行加和处理,并加和处理得到的融合特征向量。
其次,将融合特征向量输入到第一ERNIE模型中,以计算得到预训练输出层向量。
再次,将第一ERNIE模型中输入到第一CRF网络中,得到触发词标注序列。
其中,图7中标记为A的部分,即为输入文本“李某某求婚杨某某”对应的触发词标注结果。
最后,根据触发词标注序列,即可确定出输入文本中的触发词为“求婚”。
基于序列标注的论元抽取模型:
首先:句子输入模型,构建特征包含词汇特征(Token Embeding)、是否上下句特征(Segment Embedding)和位置特征(Position Embedding),以及触发词特征,从基于序列标注的触发词抽取模型中预测得到的触发词作为特征加入,加入方式是如果改位置的词汇是识别为触发词,则设置为1,如果不是,则设置为0,然后专为向量embedding的形式。
其次:将上述四种类型的特征向量进行向量加和处理,以得到融合特征向量,并将融合特征向量输入第二ERNIE模型中,计算得到预训练输出层向量;
再次:将第二ERNIE模型的输出层向量,输入到第二crf网络中,得到论元标注结果;
最后:根据论元标注结果,确定输入文本中的论元。
其中,通过图7可以看出,本实施例中的触发词抽取模型和论元抽取模型中所采用的标注模式均为BIO格式的标注模式。
在本示例中,图7中标记为B的部分,即为输入文本“李某某求婚杨某某”对应的论元标注结果,根据论元标注结果,可确定出输入文本“李某某求婚杨某某”中的论元为“李某某”和“杨某某”。
将基于序列标注的触发词抽取模型和基于序列标注的论元抽取模型的结果根据事件结构schema进行结果关联,产出输入文本的事件抽取结果。
具体而言,可基于触发词,确定出触发词所属的事件类型为“求婚事件”,对应地,确定出论元“李某某”在求婚事件中的论元角色为“求婚者”,对应地,确定出论元“杨某某”在求婚事件中的论元角色为“被求婚者”或者“求婚对象”。
本申请实施例的文本中的事件抽取方法,通过标注序列的触发词抽取模型对输入文本进行触发词抽取,以得到输入文本中的触发词抽取结果,并将输入文本以及触发词抽取结果输入到基于标注序列的论元抽取模型中,以得到该输入文本的论元抽取结果,对应地,基于论元抽取结果和触发词抽取结果,根据事件结构进行结果关联,产出该输入文本的事件抽取结果。由此,完全基于深度学习的事件抽取方式实现事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
为了实现上述实施例,本申请实施例还提供一种文本中的事件抽取装置。
图8是根据本申请第八实施例提供的一种文本中的事件抽取装置。
如图8所示,该文本中的事件抽取装置10可以包括:获取模块110、触发词抽取模块120、论元抽取模块130和确定模块140,其中:
获取模块110,用于获取输入文本。
触发词抽取模块120,用于将输入文本输入到触发词抽取模型中,以得到输入文本的触发词抽取结果。
论元抽取模块130,用于将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果。以及
确定模块140,用于根据触发词抽取结果和论元抽取结果,确定输入文本的事件抽取结果。
其中,需要说明的是,前述对文本中的事件抽取方法实施例的解释说明也适用于本实施例中的文本中的事件抽取装置,此处不再赘述。
本申请实施例的文本中的事件抽取装置,在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
在本申请的一个实施例中,在图8所示的装置实施例的基础上,如图9所示,该确定模块140可以包括:
第一确定子模块141,用于根据触发词抽取结果,确定输入文本中的触发词。
第二确定子模块142,用于根据触发词,确定触发词所属的事件类型。
第三确定子模块143,用于根据论元抽取结果,确定输入文本中的论元。
第四确定子模块144,用于根据事件类型,确定论元在事件类型中所属的论元角色。以及
第五确定子模块145,用于根据触发词、事件类型、论元以及论元角色,确定输入文本的事件抽取结果。
在本申请的一个实施例中,触发词抽取模型包括第一预训练语言模型和第一序列标注网络,触发词抽取模块果120,包括:
第一分字子模块121,用于对输入文本进行分字,以得到输入文本的字序列。
第一语义特征表示子模块122,用于将字序列输入到第一预训练语言模型中,以得到字序列的第一语义特征向量序列。以及
第一标注子模块123,用于将第一语义特征向量序列输入到第一序列标注网络,以得到字序列的触发词标注序列。以及
第六确定子模块124,用于根据触发词标注序列,确定输入文本的触发词抽取结果。
在本申请的一个实施例中,第一序列标注网络包括第一条件随机场层,第一标注子模块123可以包括:
第一确定单元1231,用于根据第一语义特征向量序列,确定字序列中每个字在各个触发词标注标签上的概率值。
第一获取单元1232,用于获取第一条件随机场层对应的第一标签转移概率矩阵。
第二确定单元1233,用于根据第一标签转移概率矩阵和每个字在各个触发词标注标签上的概率值,确定字序列的多个候选触发词抽取结果的概率值。以及
第二获取单元1234,用于从多个候选触发词序列中获取概率值最大的候选触发词标注序列作为字序列的触发词标注序列。
在本申请的一个实施例中,论元抽取模型包括第二预训练语言模型和第二序列标注网络,论元抽取模块130可以包括:
第二分字子模块131,用于对输入文本进行分字,以得到输入文本的字序列。
第七确定子模块132,用于根据触发词抽取结果,确定字序列的触发词特征向量序列。
第八确定子模块133,用于根据字序列,确定字序列对应的文本特征向量序列。
融合子模块134,用于将文本特征向量序列和触发词特征向量序列进行加和,以得到融合特征向量序列。
第二语义特征表示子模块135,用于将融合特征向量序列输入到第二预训练语言模型中,以得到字序列的第二语义特征向量序列。
第二标注子模块136,用于将第二语义特征向量序列输入到第二序列标注网络中,以得到字序列的论元标注序列。以及
第九确定子模块137,用于根据论元标注序列,确定输入文本的论元。
在本申请的一个实施例中,触发词抽取结果包括输入文本中每个字的触发词识别结果,第七确定子模块132具体用于:根据每个字的触发词识别结果,确定字序列的触发词特征向量序列。
具体地,针对字序列中的每个字,第七确定子模块132可根据每个字的触发词识别结果,确定每个字对应的触发词特征向量,并根据每个字对应的触发词特征向量,形成该字序列的触发词特征向量序列。
在本申请的一个实施例中,其中,第二序列标注网络包括第二条件随机场层,第二标注子模块136可以包括:
第三确定单元1361,用于根据第二语义特征向量序列,确定字序列中每个字在各个论元标注标签上的概率值。
第三获取单元1362,用于获取第二条件随机场层所对应的第二标签转移概率矩阵。
第四确定单元1363,用于根据第二标签转移概率矩阵和每个字在各个论元标注标签上的概率值,确定字序列的多个候选论元标注序列的概率值。以及
第四获取单元1364,用于从多个候选论元序列中获取概率值最大的候选论元标注序列作为字序列的论元标注序列。
本申请实施例的文本中的事件抽取装置,在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10所示,是根据本申请实施例的文本中的事件抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的文本中的事件抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本中的事件抽取方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本中的事件抽取方法对应的程序指令/模块(例如,附图8所示的获取模块110、触发词抽取模块120、论元抽取模块130和确定模块140)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本中的事件抽取方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本中的事件抽取的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至文本中的事件抽取的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本中的事件抽取的方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与文本中的事件抽取的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在对输入文本进行事件抽取时,通过触发词抽取模型对输入文本进行触发词抽取,从而得到该输入文本的触发词抽取结果,并将输入文本和触发词抽取结果输入到论元抽取模型中,以得到输入文本的论元抽取结果,以及结合触发词抽取结果和论元抽取结果确定输入文本的事件抽取结果。由此,结合触发词抽取模型和论元抽取模型实现了对输入文本进行事件抽取,提高了输入文本中事件抽取的准确性的同时,可降低事件抽取的构建成本,无需任何人工特征。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种文本中的事件抽取方法,包括:
获取输入文本;
将所述输入文本输入到触发词抽取模型中,以得到所述输入文本的触发词抽取结果;
将所述输入文本和所述触发词抽取结果输入到论元抽取模型中,以得到所述输入文本的论元抽取结果;以及
根据所述触发词抽取结果和所述论元抽取结果,确定所述输入文本的事件抽取结果;
其中,所述论元抽取模型包括第二预训练语言模型和第二序列标注网络,所述将所述输入文本和所述触发词抽取结果输入到论元抽取模型中,以得到所述输入文本的论元抽取结果,包括:
对所述输入文本进行分字,以得到所述输入文本的字序列;
根据所述触发词抽取结果,确定所述字序列的触发词特征向量序列;
根据所述字序列,确定所述字序列对应的文本特征向量序列,所述文本特征向量序列包括所述字序列的字特征向量序列、位置特征向量序列、上下文特征向量序列;
将所述文本特征向量序列和所述触发词特征向量序列进行加和,以得到融合特征向量序列;
将所述融合特征向量序列输入到所述第二预训练语言模型中,以得到所述字序列的第二语义特征向量序列;以及
将所述第二语义特征向量序列输入到第二序列标注网络中,以得到所述字序列的论元标注序列;以及
根据所述论元标注序列,确定所述输入文本的论元。
2.根据权利要求1所述的方法,其中,所述根据所述触发词抽取结果和所述论元抽取结果,确定所述输入文本的事件抽取结果,包括:
根据所述触发词抽取结果,确定所述输入文本中的触发词;
根据所述触发词,确定所述触发词所属的事件类型;
根据所述论元抽取结果,确定所述输入文本中的论元;
根据所述事件类型,确定所述论元在所述事件类型中所属的论元角色;以及
根据所述触发词、所述事件类型、所述论元以及所述论元角色,确定所述输入文本的事件抽取结果。
3.根据权利要求1所述的方法,其中,所述触发词抽取模型包括第一预训练语言模型和第一序列标注网络,所述将所述输入文本输入到触发词抽取模型中,以得到所述输入文本的触发词抽取结果,包括:
对所述输入文本进行分字,以得到所述输入文本的字序列;
将所述字序列输入到第一预训练语言模型中,以得到所述字序列的第一语义特征向量序列;
将所述第一语义特征向量序列输入到所述第一序列标注网络,以得到所述字序列的触发词标注序列;以及
根据所述触发词标注序列,确定所述输入文本的触发词抽取结果。
4.根据权利要求3所述的方法,其中,所述第一序列标注网络包括第一条件随机场层,所述将所述第一语义特征向量序列输入到所述第一序列标注网络,以得到所述字序列的触发词标注序列,包括:
根据所述第一语义特征向量序列,确定所述字序列中每个字在各个触发词标注标签上的概率值;
获取所述第一条件随机场层对应的第一标签转移概率矩阵;
根据所述第一标签转移概率矩阵和每个字在各个触发词标注标签上的概率值,确定所述字序列的多个候选触发词抽取结果的概率值;以及
从所述多个候选触发词序列中获取概率值最大的候选触发词标注序列作为所述字序列的触发词标注序列。
5.根据权利要求1所述的方法,其中,所述第二序列标注网络包括第二条件随机场层,所述将所述第二语义特征向量序列输入到第二序列标注网络中,以得到所述字序列的论元标注序列,包括:
根据所述第二语义特征向量序列,确定所述字序列中每个字在各个论元标注标签上的概率值;
获取所述第二条件随机场层所对应的第二标签转移概率矩阵;
根据所述第二标签转移概率矩阵和每个字在各个论元标注标签上的概率值,确定所述字序列的多个候选论元标注序列的概率值;以及
从所述多个候选论元序列中获取概率值最大的候选论元标注序列作为所述字序列的论元标注序列。
6.根据权利要求1所述的方法,其中,所述触发词抽取结果包括所述输入文本中每个字的触发词识别结果,所述根据所述触发词抽取结果,确定所述字序列的触发词特征向量序列,包括:
根据所述每个字的触发词识别结果,确定所述字序列的触发词特征向量序列。
7.一种文本中的事件抽取装置,包括:
获取模块,用于获取输入文本;
触发词抽取模块,用于将所述输入文本输入到触发词抽取模型中,以得到所述输入文本的触发词抽取结果;
论元抽取模块,用于将所述输入文本和所述触发词抽取结果输入到论元抽取模型中,以得到所述输入文本的论元抽取结果;以及
确定模块,用于根据所述触发词抽取结果和所述论元抽取结果,确定所述输入文本的事件抽取结果;
其中,所述论元抽取模型包括第二预训练语言模型和第二序列标注网络,所述论元抽取模块,包括:
第二分字子模块,用于对所述输入文本进行分字,以得到所述输入文本的字序列;
第七确定子模块,用于根据所述触发词抽取结果,确定所述字序列的触发词特征向量序列;
第八确定子模块,用于根据所述字序列,确定所述字序列对应的文本特征向量序列,所述文本特征向量序列包括所述字序列的字特征向量序列、位置特征向量序列、上下文特征向量序列;
融合子模块,用于将所述文本特征向量序列和所述触发词特征向量序列进行加和,以得到融合特征向量序列;
第二语义特征表示子模块,用于将所述融合特征向量序列输入到所述第二预训练语言模型中,以得到所述字序列的第二语义特征向量序列;
第二标注子模块,用于将所述第二语义特征向量序列输入到第二序列标注网络中,以得到所述字序列的论元标注序列;以及
第九确定子模块,用于根据所述论元标注序列,确定所述输入文本的论元。
8.根据权利要求7所述的装置,其中,所述确定模块,包括:
第一确定子模块,用于根据所述触发词抽取结果,确定所述输入文本中的触发词;
第二确定子模块,用于根据所述触发词,确定所述触发词所属的事件类型;
第三确定子模块,用于根据所述论元抽取结果,确定所述输入文本中的论元;
第四确定子模块,用于根据所述事件类型,确定所述论元在所述事件类型中所属的论元角色;以及
第五确定子模块,用于根据所述触发词、所述事件类型、所述论元以及所述论元角色,确定所述输入文本的事件抽取结果。
9.根据权利要求7所述的装置,其中,所述触发词抽取模型包括第一预训练语言模型和第一序列标注网络,所述触发词抽取模块果,包括:
第一分字子模块,用于对所述输入文本进行分字,以得到所述输入文本的字序列;
第一语义特征表示子模块,用于将所述字序列输入到第一预训练语言模型中,以得到所述字序列的第一语义特征向量序列;以及
第一标注子模块,用于将所述第一语义特征向量序列输入到所述第一序列标注网络,以得到所述字序列的触发词标注序列;以及
第六确定子模块,用于根据所述触发词标注序列,确定所述输入文本的触发词抽取结果。
10.根据权利要求9所述的装置,其中,所述第一序列标注网络包括第一条件随机场层,所述第一标注子模块,包括:
第一确定单元,用于根据所述第一语义特征向量序列,确定所述字序列中每个字在各个触发词标注标签上的概率值;
第一获取单元,用于获取所述第一条件随机场层对应的第一标签转移概率矩阵;
第二确定单元,用于根据所述第一标签转移概率矩阵和每个字在各个触发词标注标签上的概率值,确定所述字序列的多个候选触发词抽取结果的概率值;以及
第二获取单元,用于从所述多个候选触发词序列中获取概率值最大的候选触发词标注序列作为所述字序列的触发词标注序列。
11.根据权利要求7所述的装置,其中,所述第二序列标注网络包括第二条件随机场层,所述第二标注子模块,包括:
第三确定单元,用于根据所述第二语义特征向量序列,确定所述字序列中每个字在各个论元标注标签上的概率值;
第三获取单元,用于获取所述第二条件随机场层所对应的第二标签转移概率矩阵;
第四确定单元,用于根据所述第二标签转移概率矩阵和每个字在各个论元标注标签上的概率值,确定所述字序列的多个候选论元标注序列的概率值;以及
第四获取单元,用于从所述多个候选论元序列中获取概率值最大的候选论元标注序列作为所述字序列的论元标注序列。
12.根据权利要求7所述的装置,其中,所述触发词抽取结果包括所述输入文本中每个字的触发词识别结果,所述第七确定子模块,具体用于:
根据所述每个字的触发词识别结果,确定所述字序列的触发词特征向量序列。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608577.6A CN111967268B (zh) | 2020-06-30 | 2020-06-30 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
US17/113,748 US11625539B2 (en) | 2020-06-30 | 2020-12-07 | Extracting trigger words and arguments from text to obtain an event extraction result |
EP20213084.5A EP3933660A1 (en) | 2020-06-30 | 2020-12-10 | Method and apparatus for extracting event from text, electronic device, and storage medium |
KR1020200183500A KR102577512B1 (ko) | 2020-06-30 | 2020-12-24 | 텍스트 내의 이벤트 추출 방법, 장치, 전자 기기, 및 저장 매체 |
JP2020217680A JP7481251B2 (ja) | 2020-06-30 | 2020-12-25 | テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608577.6A CN111967268B (zh) | 2020-06-30 | 2020-06-30 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967268A CN111967268A (zh) | 2020-11-20 |
CN111967268B true CN111967268B (zh) | 2024-03-19 |
Family
ID=73361071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010608577.6A Active CN111967268B (zh) | 2020-06-30 | 2020-06-30 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11625539B2 (zh) |
EP (1) | EP3933660A1 (zh) |
JP (1) | JP7481251B2 (zh) |
KR (1) | KR102577512B1 (zh) |
CN (1) | CN111967268B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
CN112487826A (zh) * | 2020-11-30 | 2021-03-12 | 北京百度网讯科技有限公司 | 信息抽取方法、抽取模型训练方法、装置以及电子设备 |
CN112560460B (zh) * | 2020-12-08 | 2022-02-25 | 北京百度网讯科技有限公司 | 抽取结构化信息的方法、装置、电子设备和可读存储介质 |
CN112612885A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
CN115151903A (zh) * | 2020-12-25 | 2022-10-04 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112733507B (zh) * | 2021-01-16 | 2023-06-09 | 江苏网进科技股份有限公司 | 一种自动生成法律文本标记事件的方法 |
CN112860852B (zh) * | 2021-01-26 | 2024-03-08 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN112817561B (zh) * | 2021-02-02 | 2023-08-18 | 山东省计算中心(国家超级计算济南中心) | 软件需求文档的事务类功能点结构化抽取方法及系统 |
CN112861527A (zh) * | 2021-03-17 | 2021-05-28 | 合肥讯飞数码科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
CN113064983B (zh) * | 2021-04-23 | 2024-04-26 | 深圳壹账通智能科技有限公司 | 语义检测方法、装置、计算机设备及存储介质 |
CN113255322B (zh) * | 2021-06-10 | 2021-10-01 | 深圳追一科技有限公司 | 事件抽取方法、装置、计算机设备和计算机可读存储介质 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113407610B (zh) * | 2021-06-30 | 2023-10-24 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
CN113722461B (zh) * | 2021-09-02 | 2022-05-06 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113779182B (zh) * | 2021-11-12 | 2022-02-15 | 航天宏康智能科技(北京)有限公司 | 从文本数据抽取事件的方法及装置 |
CN113779227B (zh) * | 2021-11-12 | 2022-01-25 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
CN114741516A (zh) * | 2021-12-08 | 2022-07-12 | 商汤国际私人有限公司 | 一种事件抽取方法和装置、电子设备及存储介质 |
CN114936559B (zh) * | 2022-01-05 | 2023-04-07 | 华能贵诚信托有限公司 | 一种基于多模型融合的多级事件抽取方法和抽取系统 |
CN114168716B (zh) * | 2022-02-11 | 2022-05-24 | 华南理工大学 | 基于深度学习的工程造价自动抽取和分析方法及装置 |
CN114239536B (zh) * | 2022-02-22 | 2022-06-21 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
CN114298053B (zh) * | 2022-03-10 | 2022-05-24 | 中国科学院自动化研究所 | 一种基于特征和注意力机制融合的事件联合抽取系统 |
CN114297394B (zh) * | 2022-03-11 | 2022-07-01 | 中国科学院自动化研究所 | 对文本中的事件论元进行抽取的方法和电子设备 |
CN114943221A (zh) * | 2022-04-11 | 2022-08-26 | 哈尔滨工业大学(深圳) | 片段指针交互模型的构建方法及社会传感灾情监测方法 |
CN114741473B (zh) * | 2022-04-17 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于多任务学习的事件抽取方法 |
CN114610866B (zh) * | 2022-05-12 | 2023-05-05 | 湖南警察学院 | 基于全局事件类型的序列到序列联合事件抽取方法和系统 |
CN114841162B (zh) * | 2022-05-20 | 2024-01-05 | 中国电信股份有限公司 | 文本处理方法、装置、设备及介质 |
CN114861677B (zh) * | 2022-05-30 | 2023-04-18 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备以及存储介质 |
CN115238045B (zh) * | 2022-09-21 | 2023-01-24 | 北京澜舟科技有限公司 | 一种生成式事件论元抽取方法、系统及存储介质 |
CN115759036B (zh) * | 2022-10-28 | 2023-08-04 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
CN116205220B (zh) * | 2023-04-23 | 2024-02-06 | 北京邮电大学 | 一种触发词和论元的抽取方法、系统、设备及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN104598510A (zh) * | 2014-10-16 | 2015-05-06 | 苏州大学 | 一种事件触发词识别方法及装置 |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN106776523A (zh) * | 2017-01-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的新闻速报生成方法及装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110489520A (zh) * | 2019-07-08 | 2019-11-22 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501467B2 (en) * | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
KR100987214B1 (ko) * | 2008-09-11 | 2010-10-12 | 고려대학교 산학협력단 | 논항 분석 장치, 논항 분석 방법 및 논항 분석 기반 정보 제공 시스템 |
US8606564B2 (en) * | 2010-11-01 | 2013-12-10 | Yahoo! Inc. | Extracting rich temporal context for business entities and events |
JP5389273B1 (ja) | 2012-06-25 | 2014-01-15 | 株式会社東芝 | 文脈解析装置および文脈解析方法 |
KR101646159B1 (ko) | 2015-04-23 | 2016-08-05 | 한림대학교 산학협력단 | Srl 기반의 문장 분석 방법 및 장치 |
US20170075904A1 (en) * | 2015-09-16 | 2017-03-16 | Edgetide Llc | System and method of extracting linked node graph data structures from unstructured content |
KR101831058B1 (ko) * | 2016-01-11 | 2018-02-21 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
US20180061256A1 (en) * | 2016-01-25 | 2018-03-01 | Wespeke, Inc. | Automated digital media content extraction for digital lesson generation |
WO2017192851A1 (en) * | 2016-05-04 | 2017-11-09 | Wespeke, Inc. | Automated generation and presentation of lessons via digital media content extraction |
CN108304365A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法及装置 |
EP3407209A1 (en) * | 2017-05-22 | 2018-11-28 | Fujitsu Limited | Apparatus and method for extracting and storing events from a plurality of heterogeneous sources |
JP6907703B2 (ja) | 2017-05-24 | 2021-07-21 | 富士通株式会社 | 解析装置、解析方法、および解析プログラム |
CN107220352B (zh) * | 2017-05-31 | 2020-12-08 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
JP2018206263A (ja) | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | 述語項構造モデル生成装置、述語項構造解析装置、方法、及びプログラム |
CN110633330B (zh) | 2018-06-01 | 2022-02-22 | 北京百度网讯科技有限公司 | 事件发现方法、装置、设备及存储介质 |
CN110019843B (zh) * | 2018-09-30 | 2020-11-06 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
RU2721190C1 (ru) * | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
US11144721B2 (en) * | 2019-05-31 | 2021-10-12 | Accenture Global Solutions Limited | System and method for transforming unstructured text into structured form |
CN111428049B (zh) * | 2020-03-20 | 2023-07-21 | 北京百度网讯科技有限公司 | 一种事件专题的生成方法、装置、设备和存储介质 |
US11687385B2 (en) * | 2020-05-21 | 2023-06-27 | International Business Machines Corporation | Unsupervised event extraction |
US11860684B2 (en) * | 2020-06-01 | 2024-01-02 | Asapp, Inc. | Few-shot named-entity recognition |
-
2020
- 2020-06-30 CN CN202010608577.6A patent/CN111967268B/zh active Active
- 2020-12-07 US US17/113,748 patent/US11625539B2/en active Active
- 2020-12-10 EP EP20213084.5A patent/EP3933660A1/en not_active Withdrawn
- 2020-12-24 KR KR1020200183500A patent/KR102577512B1/ko active IP Right Grant
- 2020-12-25 JP JP2020217680A patent/JP7481251B2/ja active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN104598510A (zh) * | 2014-10-16 | 2015-05-06 | 苏州大学 | 一种事件触发词识别方法及装置 |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN106776523A (zh) * | 2017-01-22 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的新闻速报生成方法及装置 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110489520A (zh) * | 2019-07-08 | 2019-11-22 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102577512B1 (ko) | 2023-09-12 |
CN111967268A (zh) | 2020-11-20 |
JP2022013602A (ja) | 2022-01-18 |
KR20220002051A (ko) | 2022-01-06 |
EP3933660A1 (en) | 2022-01-05 |
US11625539B2 (en) | 2023-04-11 |
JP7481251B2 (ja) | 2024-05-10 |
US20210406476A1 (en) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967268B (zh) | 文本中的事件抽取方法、装置、电子设备和存储介质 | |
CN111241832B (zh) | 核心实体标注方法、装置及电子设备 | |
EP3920075A1 (en) | Text recognition method and apparatus, electronic device, and storage medium | |
CN111414482B (zh) | 一种事件论元抽取方法、装置以及电子设备 | |
KR20210038449A (ko) | 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체 | |
CN111144115B (zh) | 预训练语言模型获取方法、装置、电子设备和存储介质 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN111680145B (zh) | 知识表示学习方法、装置、设备以及存储介质 | |
EP3916612A1 (en) | Method and apparatus for training language model based on various word vectors, device, medium and computer program product | |
CN111241819B (zh) | 词向量生成方法、装置及电子设备 | |
CN111104514B (zh) | 文档标签模型的训练方法及装置 | |
CN111259671B (zh) | 文本实体的语义描述处理方法、装置及设备 | |
CN111325020A (zh) | 一种事件论元抽取方法、装置以及电子设备 | |
CN111339268B (zh) | 实体词识别方法和装置 | |
CN111078878B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
CN111950292B (zh) | 文本纠错模型的训练方法、文本纠错处理方法和装置 | |
CN111143561A (zh) | 意图识别模型训练方法、装置及电子设备 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
US11216615B2 (en) | Method, device and storage medium for predicting punctuation in text | |
CN112507702B (zh) | 文本信息的抽取方法、装置、电子设备及存储介质 | |
KR20210157342A (ko) | 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체 | |
CN111581358B (zh) | 信息抽取方法、装置及电子设备 | |
CN111522944A (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN111339314B (zh) | 一种三元组数据的生成方法、装置和电子设备 | |
CN112328749A (zh) | 知识要素提取方法、装置、电子设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |