CN113946681B - 文本数据的事件抽取方法、装置、电子设备及可读介质 - Google Patents
文本数据的事件抽取方法、装置、电子设备及可读介质 Download PDFInfo
- Publication number
- CN113946681B CN113946681B CN202111558098.9A CN202111558098A CN113946681B CN 113946681 B CN113946681 B CN 113946681B CN 202111558098 A CN202111558098 A CN 202111558098A CN 113946681 B CN113946681 B CN 113946681B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- words
- event extraction
- sentence vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。本申请涉及的文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
Description
技术领域
本申请涉及计算机信息处理领域,具体而言,涉及一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质。
背景技术
随着自然语言处理领域的发展以及网络信息的飞速增长,人们获取个性化信息的难度持续增加,事件抽取成为信息抽取领域的热门研究分支,其可以为知识库构建、问答以及语言理解任务提供有效的结构化信息。事件抽取的任务是从非结构化的文本中抽取出事件元素并组织成结构化的形式。事件抽取任务包括事件识别和事件论元抽取两个子任务。事件识别,即识别出文本中的事件触发词并对触发词进行分类;事件论元抽取,即从句子中抽取出事件触发词对应的事件论元并分类。
现有技术中,专利CN113761122A、CN113761936A、CN111897908A、CN113407660B、CN107122416B均从不同的角度描述了时间抽取方法,但是现有技术中的事件抽取方法所使用的池化层只能捕捉句子中最重要的信息,在考虑多事件句子时可能会遗漏有价值的信息,进而导致准确率、召回率较低。
因此,需要一种新的文本数据的事件抽取方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本申请提供一种文本数据的事件抽取方法、装置、电子设备及计算机可读介质,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提出一种文本数据的事件抽取方法,该方法包括:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
在本申请的一种示例性实施例中,还包括:获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
在本申请的一种示例性实施例中,为所述多个句子向量样本集合中的多个单词样本分配样本标签,包括:为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。
在本申请的一种示例性实施例中,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:带有样本标签的多个单词样本输入TextCNN文本分类模型;基于实体注意力机制生成注意力特征;基于动态池化层生成池化特征;基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。
在本申请的一种示例性实施例中,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,包括: BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;根据编码将单词映射成词向量;根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。
在本申请的一种示例性实施例中,将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合,包括:将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征;动态划分池化区域并计算每个池化区域的池化特征;基于池化特征生成多个单词的标签概率矩阵;基于所述标签概率矩阵生成事件集合。
在本申请的一种示例性实施例中,将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征,包括:事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;基于所述特征图生成所述至少一个句子向量集合的注意力特征。
在本申请的一种示例性实施例中,基于所述特征图生成所述至少一个句子向量集合的注意力特征,包括:基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征。
在本申请的一种示例性实施例中,动态划分池化区域并计算每个池化区域的池化特征,包括:事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;计算每个池化区域的池化特征。
在本申请的一种示例性实施例中,基于池化特征生成多个单词的标签概率矩阵,包括:事件抽取模型中的全连接层基于池化特征对所述至少一个句子向量进行全连接处理;根据处理结果生成单词对应于触发词标签和论元标签的概率;基于多个单词对应的触发词标签和论元标签的概率生成标签概率矩阵。
根据本申请的一方面,提出一种文本数据的事件抽取装置,该装置包括:数据模块,用于将文本数据中的至少一个句子依次输入BERT模型进行预训练;集合模块,用于根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;事件模块,用于将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
在本申请的一种示例性实施例中,还包括:模型模块,用于获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本申请的文本数据的事件抽取方法、装置、电子设备及计算机可读介质,通过将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合的方式,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种文本数据的事件抽取方法及装置的系统框图。
图2是根据一示例性实施例示出的一种文本数据的事件抽取方法的流程图。
图3是根据另一示例性实施例示出的一种文本数据的事件抽取方法的流程图。
图4是根据另一示例性实施例示出的一种文本数据的事件抽取方法的流程图。
图5是根据一示例性实施例示出的一种文本数据的事件抽取装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本申请概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的,因此不能用于限制本申请的保护范围。
本发明涉及的相关术语解释如下:
事件抽取:是指从描述事件信息的文本数据中抽取出用户感兴趣的事件并以结构化的形式进行展现。
事件触发词:最清楚表达事件发生的单词或短语,是决定事件类型的重要特征,一般是动词或名词。
事件论元:事件论元是事件中的特定角色,主要包括事件中的参与者和一般事件属性(如地点和时间)。
触发识别:旨在识别表征事件的最重要单词并对其进行分类。
论元识别:旨在识别所提及的实体是否是特定事件的论元。
论元分类:旨在确定已识别论元的角色。
图1是根据一示例性实施例示出的一种文本数据的事件抽取方法、装置的系统框图。
如图1所示,系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,服务器105可例如获取多个句子向量样本集合;服务器105可例如为所述多个句子向量样本集合中的多个单词样本分配样本标签;服务器105可例如基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
终端设备101、102、103可例如由服务器105获取BERT模型和事件抽取模型;终端设备101、102、103可例如将文本数据中的至少一个句子依次输入BERT模型进行预训练;终端设备101、102、103可例如根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;终端设备101、102、103可例如将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合。
终端设备101、102、103还可例如将文本数据发送至服务器105,服务器105可例如将文本数据中的至少一个句子依次输入BERT模型进行预训练;服务器105可例如根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;服务器105可例如将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合。
需要说明的是,本申请实施例所提供的文本数据的事件抽取方法可以由终端设备101、102、103和/或服务器105执行,相应地,文本数据的事件抽取装置可以设置于终端设备101、102、103和/或服务器105中。
图2是根据一示例性实施例示出的一种文本数据的事件抽取方法的流程图。文本数据的事件抽取方法20至少包括步骤S202至S206。
如图2所示,在S202中,将文本数据中的至少一个句子依次输入BERT模型进行预训练。可按照标点符号或者段落将文本数据中的文字内容划分为多个句子。按照句子原本的先后顺序依次读取数据到BERT模型中。
在S204中,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号。
在一个实施例中,BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;根据编码将单词映射成词向量;根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。
更具体的,可使用BERT模型对单词进行编码,其中,取第9层隐藏层作为单词的向量表示。即对于每个句子中的所有单词组成的词序列W={w1,…,wn-1,wn},对词序列W进行词向量转换,得到向量表示H={h1,…,hn-1,hn}。
在一个实施例中,BERT模型可采用双向Transformer结构,这种结构的特征提取能力明显强于现有技术中常见的RNN模型和CNN模型,BERT模型可以提取句子中的语义特征,进而得到更好的语义表示。Transformer是一个完全依赖自注意力机制计算输入和输出的表示,而不使用序列对齐的递归神经网络或卷积神经网络的模型。
句子向量集合中包含三个部分:Token Embedding(词向量)、Segment Embedding(句子序号)、Position Embedding(位置向量),其中Token Embedding可使用WordPiece嵌入,Segment Embedding标识单词所在句子的序号。在预训练过程中,每次输入一个句子,所有单词的序号全部为1,Position Embedding保留单词的位置信息,每个位置随机初始化一个向量,加入模型训练。最终把单词对应的三个Embedding叠加,形成事件抽取模型的输入。
本申请中利用BERT预训练的词向量将输入的单词映射成向量,最终得到句子的向量化表示,作为事件抽取模型的输入。BERT由于采用双向编码,使得训练出的结果反映了词与句子中其他词语的语义关系,能够表征出词语的多义性,可获得更好的词分布表示。
在S206中,将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合。其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。对于向量化处理后的文本,使用基于实体注意力机制和动态池化的TextCNN生成的事件抽取模型中进行特征提取,其中,TextCNN中不同大小的卷积核用来提取句子中的特征信息,从而捕捉局部的相关性。
在一个实施例中,可例如,将所述至少一个句子向量集合输入事件抽取模型中获取所述至少一个句子向量集合的注意力特征;动态划分池化区域并计算每个池化区域的池化特征;基于池化特征生成多个单词的标签概率矩阵;基于所述标签概率矩阵生成事件集合。
在一个实施例中,可例如,事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;基于所述特征图生成所述至少一个句子向量集合的注意力特征。
更具体的,基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征。
在一个实施例中,可例如,事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;计算每个池化区域的池化特征。
在一个实施例中,可例如,事件抽取模型中的全连接层基于池化特征对所述至少一个句子向量进行全连接处理;根据处理结果生成单词对应于触发词标签和论元标签的概率;基于多个单词对应的触发词标签和论元标签的概率生成标签概率矩阵。
本申请的文本数据的事件抽取方法,通过基于实体注意力机制的动态池化层从单词中提取到更多特征信息,降低信息不足对识别准确率造成的影响,以及降低因同一句子中可能出现多个不同的事件信息对事件抽取的准确率的影响,提升事件抽取模型提取事件触发词及论元的准确率。
根据本申请的文本数据的事件抽取方法,通过将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成的方式,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请的原理不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种文本数据的事件抽取方法的流程图。图3所示的流程30是对“所述事件抽取模型基于实体注意力机制和动态池化层生成”的详细描述。
如图3所示,在S302中,获取多个句子向量样本集合。可通过多个历史文本数据生成多个句子向量样本集合。
在S304中,为所述多个句子向量样本集合中的多个单词样本分配样本标签。可为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。
在S306中,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
更具体的,可将带有样本标签的多个单词样本输入TextCNN文本分类模型;基于实体注意力机制生成注意力特征;基于动态池化层生成池化特征;基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。
与已有技术相比,本申请的文本数据的事件抽取方法具有以下优点:1.构建了针对实体元素的注意力层,相比于传统的方法可以增加对实体元素的注意力权重,减少无关信息对事件抽取任务产生的干扰。2.使用了动态池化层从句子中抽取多个有价值的信息,避免了一个句子中包含多个事件时池化层只能提取出其中最重要的信息。
图4是根据另一示例性实施例示出的一种文本数据的事件抽取方法的流程图。图4所示的流程40是对图3所示的流程中S306“ 基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型”的详细描述。
如图4所示,在S402中,TextCNN模型的卷积层在文本序列的垂直方向做卷积,得到句子向量的特征图。
CNN(卷积神经网络)具有以下特点:稀疏交互,每个输出神经元仅与前一层特定局部区域内的神经元存在连接权重,即产生交互;参数共享,在同一个模型的不同模块中使用相同的参数。卷积运算中的参数共享让网络只需要学一个参数集合,而不是对于每一位置都需要学习一个单独的参数集合。
在本申请的实施例中,TextCNN是将CNN应用于文本分类任务的模型,CNN可以实现并行化运算,极大提高运算效率,捕捉局部信息,抽取位置不变特征,对于句子中的触发词具有较好地识别能力。
在一个实施例中,基于实体注意力机制和动态池化的TextCNN具体为:
卷积层,在文本序列的垂直方向做卷积,卷积核的宽度固定为词向量的维度,高度是超参数。对每个可能的窗口做卷积操作得到特征图;
在卷积操作中,具体的步骤如下:
1.依次在句子的某个单词上覆盖滤波器;
2.将滤波器中的值与句子中的对应向量的值相乘;
3.把上面的乘积加起来,得到的和是输出向量中目标单词的值;
4.对句子的所有单词重复此操作。
在S404中,基于特征图和句子向量候选触发词和候选论元的位置动态划分TextCNN模型的池化区域;
基于实体注意力机制的动态池化层,根据句子中的实体特征生成文本的注意力特征,并根据候选触发词和候选论元的位置动态调整池化的范围;
所述实体注意力机制,用于基于所述实体特征计算句子中各单词所对应的注意力权重,并基于所述注意力权重对词向量进行加权计算,生成注意力文本表征。
所述注意力权重的计算公式为:
其中,di为句子中第i个单词上下文中实体单词的个数,hi代表第i个单词是否为实体,如果是实体hi为1,否则为0。
在S406中,计算句子向量在每个池化区域的池化特征。
所述动态池化机制,根据候选触发词和候选论元的位置动态划分池化区域,在每个池化区域分别进行最大池化,生成多个最大池化特征。
动态划分范围,其特征在于,所述划分点的计算公式为:
其中,hi为第i个候选触发词或候选论元的位置。
在S408中,对所述句子向量的特征进行全连接处理,获得每个单词属于各个标签的概率,得到标签的概率矩阵。
其中,在触发词检测时,每次训练时指定一个单词为当前的目标单词,针对TextCNN的输出结果,使用全连接层进行分类,得到当前单词是否是触发词,如果是触发词会得到其所触发的事件类别。在论元检测时,每次将触发词和候选论元作为当前的目标单词,其中,除了触发词的所有单词会被依次作为候选论元,使用全连接层进行分类,得到当前候选论元是否是触发词对应的论元,如果是论元会得到其论元类型。
全连接层可以完成维度的变换,提取整合有用的信息,在整个卷积神经网络中起到分类器的作用。
在S410中,将计算得到的标签和所述单词样本的标签进行比较。
基于文本特征和标注的标签,进行有监督的训练,得到事件抽取模型,其中TextCNN输出的特征向量作为全连接层的输入,对全连接层的输出采用Softmax分类器对注意力得分进行归一化,进而完成事件触发词及论元的分类。
Softmax函数如下:
在S412中,根据比较结果调整所述TextCNN模型的参数,进而生成所述事件抽取模型。将所述计算的标签与相应的真实的标签进行比对,判断预测标签与真实的标签是否一致,统计与真实的标签一致的预测标签的数量,并计算与真实的标签一致的预测标签的数量在所有预测标签的数量中的占比,若所述占比大于或等于预设占比值,则所述TextCNN模型收敛,得到训练完成的事件抽取模型,若所述占比小于所述预设占比值,则调整所述调整模型中的参数,通过调整后的TextCNN模型重新预测各个对象的预测标签,直至所述占比大于或等于预设占比值。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU 执行的计算机程序。在该计算机程序被CPU 执行时,执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图5是根据一示例性实施例示出的一种文本数据的事件抽取装置的框图。如图5所示,文本数据的事件抽取装置50包括:数据模块502,集合模块504,事件模块506,文本数据的事件抽取装置50还可包括:模型模块508。
数据模块502用于将文本数据中的至少一个句子依次输入BERT模型进行预训练;
集合模块504用于根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;
事件模块506用于将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。
模型模块508用于获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
根据本申请的文本数据的事件抽取装置,通过将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合的方式,能够减少无关信息对事件抽取任务产生的干扰,一次性的由文本数据的句子中抽取多个有价值的信息,提升信息抽取的准确度。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本申请的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图2,图3,图4中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备600’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备600交互的设备通信,和/或该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图7所示,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:将文本数据中的至少一个句子依次输入BERT模型进行预训练;根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;将所述至少一个句子向量集合输入事件抽取模型中以生成至少一个事件集合;其中,所述事件抽取模型基于实体注意力机制和动态池化层生成。该计算机可读介质还可实现如下功能:获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施例的方法。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (8)
1.一种文本数据的事件抽取方法,其特征在于,包括:
将文本数据中的至少一个句子依次输入BERT模型进行预训练;
根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;
获取多个句子向量样本集合;
为所述多个句子向量样本集合中的多个单词样本分配样本标签;
基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成事件抽取模型;
事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;
基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;
基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征;
事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;
计算每个池化区域的池化特征;
基于池化特征生成多个单词的标签概率矩阵;
基于所述标签概率矩阵生成文本数据对应的事件集合;
其中,注意力权重的计算公式为:
其中,di为句子中第i个单词的上下文中实体单词的个数,hi代表第i个单词是否为实体,如果是实体hi为1,否则为0;
其中,动态划分池化区域的划分点的计算公式为:
其中,hi为第i个候选触发词或候选论元的位置。
2.如权利要求1所述的事件抽取方法,其特征在于,为所述多个句子向量样本集合中的多个单词样本分配样本标签,包括:
为所述多个句子向量样本集合中的多个单词分别分配触发词标签和论元标签。
3.如权利要求1所述的事件抽取方法,其特征在于,基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成所述事件抽取模型,包括:
将带有样本标签的多个单词样本输入TextCNN文本分类模型;
基于实体注意力机制生成注意力特征;
基于动态池化层生成池化特征;
基于注意力特征和池化特征的计算结果对TextCNN文本分类模型进行训练以生成所述事件抽取模型。
4.如权利要求1所述的事件抽取方法,其特征在于,根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,包括:
BERT模型基于双向Transformer结构对所述至少一个句子中的多个单词进行编码;
根据编码将单词映射成词向量;
根据多个单词和其对应的词编码、位置编码、句子序号生成句子向量集合。
5.如权利要求1所述的事件抽取方法,其特征在于,基于池化特征生成多个单词的标签概率矩阵,包括:
事件抽取模型中的全连接层基于池化特征对所述至少一个句子向量进行全连接处理;
根据处理结果生成单词对应于触发词标签和论元标签的概率;
基于多个单词对应的触发词标签和论元标签的概率生成标签概率矩阵。
6.一种文本数据的事件抽取装置,其特征在于,包括:
数据模块,用于将文本数据中的至少一个句子依次输入BERT模型进行预训练;
集合模块,用于根据预训练结果生成所述至少一个句子对应的至少一个句子向量集合,句子向量集合中包括多个单词和其对应的词向量、位置向量、句子序号;
模型模块,用于获取多个句子向量样本集合;为所述多个句子向量样本集合中的多个单词样本分配样本标签;基于带有样本标签的多个单词样本对基于实体注意力机制和动态池化层构建的TextCNN文本分类模型进行训练以生成事件抽取模型;
事件模块,用于事件抽取模型中的卷积层在所述至少一个句子向量集合的垂直方向进行卷积计算,生成特征图;基于所述特征图计算所述至少一个句子向量集合中每个单词对应的注意力权重;基于所述注意力权重对单词的词向量进行加权计算以生成单词的注意力特征;事件抽取模型中的池化层基于候选触发词和候选论元的位置动态划分池化区域;计算每个池化区域的池化特征;基于池化特征生成多个单词的标签概率矩阵;基于所述标签概率矩阵生成文本数据对应的事件集合;
其中,注意力权重的计算公式为:
其中,di为句子中第i个单词的上下文中实体单词的个数,hi代表第i个单词是否为实体,如果是实体hi为1,否则为0;
其中,动态划分池化区域的划分点的计算公式为:
其中,hi为第i个候选触发词或候选论元的位置。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558098.9A CN113946681B (zh) | 2021-12-20 | 2021-12-20 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558098.9A CN113946681B (zh) | 2021-12-20 | 2021-12-20 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113946681A CN113946681A (zh) | 2022-01-18 |
CN113946681B true CN113946681B (zh) | 2022-03-29 |
Family
ID=79339254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111558098.9A Active CN113946681B (zh) | 2021-12-20 | 2021-12-20 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946681B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114841162B (zh) * | 2022-05-20 | 2024-01-05 | 中国电信股份有限公司 | 文本处理方法、装置、设备及介质 |
CN114780706A (zh) * | 2022-06-15 | 2022-07-22 | 共道网络科技有限公司 | 一种舆情事件的信息提取方法、设备和存储介质 |
CN115359867B (zh) * | 2022-09-06 | 2024-02-02 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN117094397B (zh) * | 2023-10-19 | 2024-02-06 | 北京大数据先进技术研究院 | 一种基于短论元的细粒度事件信息抽取方法、装置和产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
US10445356B1 (en) * | 2016-06-24 | 2019-10-15 | Pulselight Holdings, Inc. | Method and system for analyzing entities |
CN110472051A (zh) * | 2019-07-24 | 2019-11-19 | 中国科学院软件研究所 | 一种基于变化量表示学习的事件检测方法 |
CN110781302A (zh) * | 2019-10-23 | 2020-02-11 | 清华大学 | 文本中事件角色的处理方法、装置、设备及存储介质 |
CN111858898A (zh) * | 2020-07-30 | 2020-10-30 | 中国科学院自动化研究所 | 基于人工智能的文本处理方法、装置及电子设备 |
CN112613305A (zh) * | 2020-12-27 | 2021-04-06 | 北京工业大学 | 基于循环神经网络的中文事件抽取方法 |
CN112836487A (zh) * | 2021-02-07 | 2021-05-25 | 四川封面传媒有限责任公司 | 一种自动评论方法、装置、计算机设备及存储介质 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
-
2021
- 2021-12-20 CN CN202111558098.9A patent/CN113946681B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10445356B1 (en) * | 2016-06-24 | 2019-10-15 | Pulselight Holdings, Inc. | Method and system for analyzing entities |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110472051A (zh) * | 2019-07-24 | 2019-11-19 | 中国科学院软件研究所 | 一种基于变化量表示学习的事件检测方法 |
CN110781302A (zh) * | 2019-10-23 | 2020-02-11 | 清华大学 | 文本中事件角色的处理方法、装置、设备及存储介质 |
CN111858898A (zh) * | 2020-07-30 | 2020-10-30 | 中国科学院自动化研究所 | 基于人工智能的文本处理方法、装置及电子设备 |
CN112613305A (zh) * | 2020-12-27 | 2021-04-06 | 北京工业大学 | 基于循环神经网络的中文事件抽取方法 |
CN112836487A (zh) * | 2021-02-07 | 2021-05-25 | 四川封面传媒有限责任公司 | 一种自动评论方法、装置、计算机设备及存储介质 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
Non-Patent Citations (2)
Title |
---|
Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks;CHEN,Yubo 等;《Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing》;20150731;第167–176页 * |
面向政治领域的事理演化图谱构建;白璐;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20200715;第2-6章 * |
Also Published As
Publication number | Publication date |
---|---|
CN113946681A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113946681B (zh) | 文本数据的事件抽取方法、装置、电子设备及可读介质 | |
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
US11720789B2 (en) | Fast nearest neighbor search for output generation of convolutional neural networks | |
JP6848091B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111831783B (zh) | 一种篇章级关系抽取方法 | |
CN108268629B (zh) | 基于关键词的图像描述方法和装置、设备、介质 | |
CN110796171A (zh) | 机器学习模型的未分类样本处理方法、装置及电子设备 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20240046067A1 (en) | Data processing method and related device | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
JP2022503812A (ja) | 文処理方法、文復号方法、装置、プログラム及び機器 | |
CN112418320A (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN111858878A (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN114492661A (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN110826327A (zh) | 情感分析方法、装置、计算机可读介质及电子设备 | |
CN111241273A (zh) | 文本数据分类方法、装置、电子设备及计算机可读介质 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |